Table of Contents
Cómo instalar y configurar Apache Spark en Ubuntu/Debian
Apache Spark. es un marco computacional distribuido de código abierto que se crea para proporcionar resultados computacionales más rápidos. Es un motor computacional en memoria, lo que significa que los datos se procesarán en la memoria.
Spark. admite varias API para transmisión, procesamiento de gráficos, SQL, MLLib. También es compatible con Java, Python, Scala y R como lenguajes preferidos. Spark se instala principalmente en clústeres de Hadoop, pero también puede instalar y configurar Spark en modo independiente.
En este artículo, veremos cómo instalar Apache Spark. en Distribuciones basadas en Debian. y Ubuntu.
Instalar Java y Scala en Ubuntu
Para instalar Apache Spark. en Ubuntu, debes tener Java. y Scala. instalados en tu máquina. La mayoría de las distribuciones modernas vienen con Java instalado por defecto y puedes verificarlo usando el siguiente comando.
$ java-version
Verifique la versión de Java en Ubuntu
Si no hay salida, puede instalar Java usando nuestro artículo sobre cómo instalar Java en Ubuntu o simplemente ejecutar los siguientes comandos para instalar Java en Ubuntu y distribuciones basadas en Debian.
$ sudo apt update $ sudo apt install default-jre $ java-versión
Instalar Java en Ubuntu freestar.config.enabled_slots.push (LocationName:” tecmint_incontent “, slotId: “tecmint_incontent”);
Ne xt, puede instalar Scala. desde el repositorio de apt ejecutando los siguientes comandos para buscar scala e instalarlo.
$ sudo apt search scala ⇒ Busque el paquete $ sudo apt install scala ⇒ Instale el paquete
Instalar Scala en Ubuntu
Para verificar la instalación de Scala. ejecute el siguiente comando.
$ scala-version Scala code runner versión 2.11.12-Copyright 2002-2017, LAMP/EPFL.
Instale Apache Spark en Ubuntu
Ahora ve a la ofi cial la página de descarga de Apache Spark y obtenga la última versión (es decir, 3.1.1) en el momento de redactar este artículo. Alternativamente, puede usar el comando wget para descargar el archivo directamente en la terminal.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2 .7.tgz
Ahora abra su terminal y cambie a donde se coloca el archivo descargado y ejecute el siguiente comando para extraer el archivo tar de Apache Spark.
$ tar-xvzf spark-3.1.1-bin-hadoop2 .7.tgz
Finalmente, mueva el directorio Spark. extraído al directorio /opt.
$ sudo mv spark-3.1.1-bin-hadoop2. 7/opt/spark
Configurar variables ambientales para Spark
Ahora debe establecer algunas variables ambientales en su archivo .profile. antes de iniciar Spark.
$ echo “export SPARK_HOME =/opt/spark”>> ~/.profile $ echo “export PATH = $ PATH:/opt/spark/bin:/opt/spark/sbin”>> ~/.profile $ echo “export PYSPARK_PYTHON =/usr/bin/python3″>> ~/.profile
Para asegurarse de que estas nuevas variables de entorno sean accesibles dentro del shell y estén disponibles para Apache Spark, también es obligatorio ejecutar el siguiente comando para que los cambios recientes entren en vigor.
$ source ~/.profile
Todos los binarios relacionados con Spark para iniciar y detener los servicios se encuentran en la carpeta sbin.
$ ls-l/opt/spark
Sp ark Binaries
Inicie Apache Spark en Ubuntu
Ejecute el siguiente comando para iniciar el servicio maestro Spark. y el servicio esclavo.
$ start-master.sh $ start-workers.sh spark://localhost: 7077
Iniciar el servicio Spark
Una vez finalizado el servicio se inicia, vaya al navegador y escriba la siguiente página de chispa de acceso a URL. Desde la página, puede ver que mi servicio maestro y esclavo está iniciado.
http://localhost: 8080/OR http://127.0.0.1:8080
Spark Web P age
También puede comprobar si spark-shell. funciona bien ejecutando el comando spark-shell.
$ spark-shell
Spark Shell
Eso es todo por este artículo. Lo encontraremos con otro artículo interesante muy pronto.