데이터프레임1 RDD vs. Dataframe (In Python) RDD 란?Resilient : RDD lineage 그래프를 통한 fault-tolerant가 빠졌거나, node의 실피로 인한 손상된 파티션을 다시 실행시킨다Distributed : 클러스터의 여러 노드에 데이터가 분산되어 저장Dataset : 원천 데이터값 혹은 값의 값들로 이루어진 파티션된 collection 데이터 (튜플 혹은 다른 레코드로써 사용될 수 있는 데이터 객체들)필요한 상황고수준 API에서 제공하지 않는 기능이 필요한 경우(JAVA, Scala에만 해당, Python은 성능손실이 크다)-> 클러스터의 물리적 데이터 배치를 아주 세밀하게 제어해야 함-> map, filter, reduce와 같은 하위수준의 변환의 경우RDD를 사용해 개발된 기존 코드를 유지해.. 2024. 6. 16. 이전 1 다음