프레임워크 & 라이브러리
RDD: 새로운 컴퓨팅 패러다임
스파크에서 데이터 참조 개념을 구현한 RDD를 이해해야 새로운 컴퓨팅 패러다임을 이해할 수 있다. 결과를 먼저 말하면, RDD를 통해 대규모로 쉽게 데이터를 처리할 수 있게 됐다. 일단 생성되면 변경될 수 없으며, 실패하면 스파크 엔진이 작업을 반복하려고 시도할 것이라는 점에서 RDD는 복원력 있는 방식으로 내결함성을 제공한다. - 일단 파티션 작업이 생성되면, RDD는 파티션을 통해 클러스터에서 자동적으로 분산된다. RDD는 또한 다른 형태로 빠르고 견고하게 변형될 수 있기 때문에 입력 데이터셋을 가지고 더많은 작업을 할 수 있게 도와준다.-RDD는 병렬로 덤프될 수 있고, 논리적으로 상호 관련 있거나 계산상 동일한 애플리케이션에서 공유될 수 있다. 입력 RDD와 관련 작업을 하기 위해 스파크 엔진에서..
2019. 2. 8. 17:12