centos7 安装配置spark集群
使用wget下载spark-3.0.0-bin-hadoop2.7压缩包(下载对应Hadoop版本的spark)
[root@master ~]# wget https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz
将spark压缩包解压到/usr/locla/src
[root@master ~]# tar -zxvf spark-3.0.0-bin-hadoop2.7.tgz -C /usr/locla/src
将spark解压目录改名为spark
[root@master ~]# mv /usr/local/src/spark-3.0.0-bin-hadoop2.7/ /usr/local/src/spark
配置spark的环境变量
[root@master ~]# vim /etc/profile
export SPARL_HOME=/usr/local/src/spark
export PATH=$PATH:$PARK_HOME/bin
进入spark配置文件存放目录
[root@master ~]# cd /usr/local/src/spark/conf/
复制spark-env.sh.template模板
[root@master conf]# cp spark-env.sh.template spark-env.sh
更改spark-env.sh配置文件
前提是已经配置好了java、hadoop、scala
[root@master conf]# vim spark-env.sh
在配置文件末尾加入如下配置
export JAVA_HOME=/usr/local/src/jdk
export SCALA_HOME=/usr/local/src/scala
export HADOOP_HOME=/usr/local/src/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/usr/local/src/spark
SPARK_DRIVER_MEMORY=1G
复制slaves.template模板
[root@master conf]# cp slaves.template slaves
更改slaves配置文件(和Hadoop的slaves配置一样)
[root@master conf]# vim slaves
#把localhost注释掉
slave1
slave2
把spark文件夹分发到起到虚拟机
[root@master conf]# scp -r /usr/local/src/spark/ root@slave1:/usr/local/src/
[root@master conf]# scp -r /usr/local/src/spark/ root@slave2:/usr/local/src/
修改其他虚拟机的环境变量