SPARK 의 특징적인 부분
1. 데이터 처리 및 계산의 단순성
2. 계산 속도
3. 대규모 데이터셋의 확장성 및 처리량
4. 다양한 데이터 유형
5.다양한 cluster manager를 사용한 cluster computing 및 배포의 용이성
6. 다양한 빅데이터 storage와 소스를 통한 작업 기능 및 지원
7. 널리 사용되는 최신 프로그래밍 언어로 작성된 다양한 API
SPARK란?
고급 데이터 분석을 위한 정교한 API를 가진 빠른 In-memory 빅데이터 처리와 general-purpose cluster computing을 위한 framework이다.
- 배치 작업에만 적합한 하둡 기반의 MapReduce와 달리, 스파크는 실시간 데이터와 배치(정적) 데이터 모두에 고급 분석을 적용하기에 적합한 일반 실행 엔진이라고 할 수 있다.
'프레임워크 & 라이브러리' 카테고리의 다른 글
DAG: For Optimizing Execution Plan (0) | 2019.02.08 |
---|---|
RDD: 새로운 컴퓨팅 패러다임 (0) | 2019.02.08 |
전통적인 분산 컴퓨팅과 그 발전 (0) | 2019.02.08 |
From Anconda to Tensorflow installation in Ubuntu (0) | 2018.11.22 |