Introduction to SPARK

b4failrise ㅣ 2019. 2. 8. 16:43

SPARK 의 특징적인 부분

1. 데이터 처리 및 계산의 단순성

2. 계산 속도

3. 대규모 데이터셋의 확장성 및 처리량

4. 다양한 데이터 유형

5.다양한 cluster manager를 사용한 cluster computing 및 배포의 용이성

6. 다양한 빅데이터 storage와 소스를 통한 작업 기능 및 지원

7. 널리 사용되는 최신 프로그래밍 언어로 작성된 다양한 API





SPARK란?

고급 데이터 분석을 위한 정교한 API를 가진 빠른 In-memory 빅데이터 처리와 general-purpose cluster computing을 위한 framework이다. 


- 배치 작업에만 적합한 하둡 기반의 MapReduce와 달리, 스파크는 실시간 데이터와 배치(정적) 데이터 모두에 고급 분석을 적용하기에 적합한 일반 실행 엔진이라고 할 수 있다.