사전 준비: JDK 설치 및 JAVA_HOME 환경 변수 설정
sudo apt-get update
sudo apt-get -y install openjdk-8-jdk
echo $JAVA_HOME
아무것도 안 뜨거나, echo $JAVA_HOME 이 그대로 뜨면
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
1. Apache Spark Project의 공식 내려 받기 페이지에 접속
2. Package type 선택
이미 하둡을 설치했다면 해답 하둡 버전에 맞는 유형을 선택할 수 있다.
3. Spark 다운로드
cd $HOME/Downloads
tar -xvf spark*
rm spark*tgz -------내려받은 스파크 tgz 아카이브를 삭제
4. 압축을 해제한 스파크 디렉터리를 Downloads에서 bin/sparks 로 옮긴다.
cd $HOME ------ 홈 디렉터리로 이동
mkdir -p bin/sparks ------ bin/sparks 디렉터리 생성
mv Downloads/spark-* bin/sparks ------압축 해제한 스파크 디렉터리를 Downloads에서 bin/sparks로 옮긴다.
5. 심볼릭 링크 생성
cd %HOME/bin
ln -s sparks/spark-2.4.0-bin-hadoop2.7 spark ------ 심볼릭 링크 생성
심볼릭 링크는 리눅스에서 여러 버전의 프로그램을 관리하는 데 매우 유용하다.
~/bin 폴더에서 tree -L 2 명령을 실행해 보자.
spark 폴더가 실제로는 sparks 디렉터리의 다른 폴더를 가리키는 심볼릭 링크인 것을 볼 수 있다.
이처럼 심볼릭 링크를 사용하는 이유는 스파크 루트 폴더를 항상 동일한 방식을 참조할 수 있기 때문이다.
다른 버전의 스파크를 사용하려면 단순히 심볼릭 링크가 다른 버전의 설치 디렉터리를 가리키도록 변경하면 된다.
이제부터는 이 $HOME/bin/spark 디렉터리를 spark root로 칭한다.