Installation of Spark in Ubuntu

b4failrise ㅣ 2018. 11. 11. 19:10

사전 준비: JDK 설치 및 JAVA_HOME 환경 변수 설정

sudo apt-get update

sudo apt-get -y install openjdk-8-jdk


echo $JAVA_HOME

아무것도 안 뜨거나, echo $JAVA_HOME 이 그대로 뜨면

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64


1. Apache Spark Project의 공식 내려 받기 페이지에 접속

https://goo.gl/DLvWLR



2. Package type 선택

이미 하둡을 설치했다면 해답 하둡 버전에 맞는 유형을 선택할 수 있다.


3. Spark 다운로드


cd $HOME/Downloads

tar -xvf spark*

rm spark*tgz            -------내려받은 스파크 tgz 아카이브를 삭제


4. 압축을 해제한 스파크 디렉터리를 Downloads에서 bin/sparks 로 옮긴다.


cd $HOME                ------ 홈 디렉터리로 이동

mkdir -p bin/sparks    ------ bin/sparks 디렉터리 생성

mv Downloads/spark-* bin/sparks    ------압축 해제한 스파크 디렉터리를 Downloads에서 bin/sparks로 옮긴다.


5. 심볼릭 링크 생

cd %HOME/bin

ln -s sparks/spark-2.4.0-bin-hadoop2.7 spark    ------ 심볼릭 링크 생성


심볼릭 링크는 리눅스에서 여러 버전의 프로그램을 관리하는 데 매우 유용하다.

~/bin 폴더에서 tree -L 2 명령을 실행해 보자.

spark 폴더가 실제로는 sparks 디렉터리의 다른 폴더를 가리키는 심볼릭 링크인 것을 볼 수 있다.


이처럼 심볼릭 링크를 사용하는 이유는 스파크 루트 폴더를 항상 동일한 방식을 참조할 수 있기 때문이다.

다른 버전의 스파크를 사용하려면 단순히 심볼릭 링크가 다른 버전의 설치 디렉터리를 가리키도록 변경하면 된다.


이제부터는 이 $HOME/bin/spark 디렉터리를 spark root로 칭한다.