Remote Shuffle Services for Apache Spark on K8S

민영근

Speaker's bio

자기 소개: 빅데이터 3년, 컨테이너 3년 후 빅데이터 + 컨테이너 n년차인 엔지니어입니다. <br>
하둡 기반의 온-프레미스 제품에 대한 경험과, 전사 시스템을 컨테이너 클라우드에서 구축/운영했던 경험을 바탕으로 현재는 컨테이너 클라우드 기반의 빅데이터 제품을 개발하는 일에 참여하고 있습니다. https://github.com/minyk

Schedule

Track : track1
Date: Day 1
Time: 15:30 ~ 16:00

Session detail

Apache Spark는 발빠르게 Kubernetes를 자원 스케쥴러로 사용한 데이터 처리 소프트웨어 중 하나입니다. Spark on K8S 로 불리는 이러한 구성은 Kubernetes에서 Spark 를 구동하는데 필요한 핵심 기능을 구현하였습니다.
그러나 다른 스케쥴러 대비 동적 자원할당 기능은 아직 개발 중인 단계입니다. 이 부분에서 문제로 제기된 것이 shuffle 데이터입니다. 처리 중 발생되는 중간 데이터인 shuffle 데이터는 다른 스케쥴러에서는 로컬 디스크에 저장하고 별도의 소프트웨어 부분에서 제공되는 형태였습니다.
최근 Spark on K8S 구성에서 Spark의 중간 결과 데이터를 원격에 저장하기 위한 오픈소스 소프트웨어 프로젝트들이 인큐베이팅 중입니다. 이러한 프로젝트 중 Apache Uniffle, Apache Celeborn 같은 공개 소프트웨어 프로젝트들을 살펴보고 특징과 기능에 대해서 정리하고 비교합니다.