SK텔레콤에서 ML 플랫폼 및 대규모 분산 학습을 위한 Supercomputer의 설계 및 운영을 리딩하고 있습니다.
SK텔레콤은 NLP, Vision, Audio 등 다양한 분야에서 AI 모델의 연구와 개발에 매진하고 있습니다. 이 중심에는 에이닷 서비스의 핵심 구성 요소인 GPT-3 기반 한국어 LLM(Large Language Model)이 위치하며, 이를 지원하기 위해 대규모 분산 학습 인프라의 개선과 발전에 지속적인 노력을 기울여왔습니다. 이번 세션에서는 SK텔레콤의 AI 슈퍼컴퓨터인 “TITAN”을 소개하고, 설계 및 구축 과정에서 고민했던 사항들에 대한 경험을 공유하려고 합니다.