centos7 安装配置spark集群

使用wget下载spark-3.0.0-bin-hadoop2.7压缩包（下载对应Hadoop版本的spark）

[root@master ~]# wget https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz

将spark压缩包解压到/usr/locla/src

[root@master ~]# tar -zxvf spark-3.0.0-bin-hadoop2.7.tgz -C /usr/locla/src

将spark解压目录改名为spark

[root@master ~]# mv /usr/local/src/spark-3.0.0-bin-hadoop2.7/ /usr/local/src/spark

配置spark的环境变量

[root@master ~]# vim /etc/profile
export SPARL_HOME=/usr/local/src/spark
export PATH=$PATH:$PARK_HOME/bin

进入spark配置文件存放目录

[root@master ~]# cd /usr/local/src/spark/conf/

复制spark-env.sh.template模板

[root@master conf]# cp spark-env.sh.template spark-env.sh

更改spark-env.sh配置文件

前提是已经配置好了java、hadoop、scala

[root@master conf]# vim spark-env.sh

在配置文件末尾加入如下配置

export JAVA_HOME=/usr/local/src/jdk
export SCALA_HOME=/usr/local/src/scala
export HADOOP_HOME=/usr/local/src/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/usr/local/src/spark
SPARK_DRIVER_MEMORY=1G

复制slaves.template模板

[root@master conf]# cp slaves.template slaves

更改slaves配置文件（和Hadoop的slaves配置一样）

[root@master conf]# vim slaves
#把localhost注释掉
slave1
slave2

把spark文件夹分发到起到虚拟机

[root@master conf]# scp -r /usr/local/src/spark/ root@slave1:/usr/local/src/
[root@master conf]# scp -r /usr/local/src/spark/ root@slave2:/usr/local/src/

修改其他虚拟机的环境变量