partition 최적화1 Spark Partition 최적화 spark의 병렬처리는 task 단위로 처리가 된다.각 task는 spark의 parition단위와 일치하므로 partition 설정을 어떻게 하느냐에 따라 병렬처리의 효율성이 달라지게 된다. Spark에서 task란Spark Application이 제출되면 job → Stage → Task 순으로 쪼개지게 되며 실질적으로 처리되는 최소 연산 단위는 Task따라서 각 처리 단위는 1 Task = 1 Core = 1 Partition 이 된다.따라서 각 코어 당 얼마만큼의 메모리가 할당될 수 있느냐에 따라 Partition의 크기를 정할 수 있다.Partition 이란?RDDs나 Dataset을 구성하고 있는 최소 단위 객체각 Partition은 서로 다른 노드에서 분산처리된다.하나의 Task에서 하나의 .. 2024. 6. 23. 이전 1 다음