수리과학, 물리학, 화학, 생명과학 분야와 이들을 기반으로 한 융&복합 분야
미래 산업 경쟁력 강화의 근간이 되는 소재 및 ICT 분야
과제 & 연구자
최근 초거대 인공지능 모델의 발전은 AI 시스템의 병목이 단일 GPU의 연산 성능을 넘어, 여러 GPU와 서버를 얼마나 효율적으로 연결하고 확장할 수 있는가의 문제로 이동하고 있음을 보여줍니다. 대규모 언어모델과 Mixture-of-Experts 모델은 수천억에서 조 단위의 파라미터를 포함하기 때문에 하나의 GPU나 단일 서버 안에 모델 전체를 저장하고 실행하기 어렵습니다. 이에 따라 학습뿐 아니라 추론에서도 다수의 GPU와 노드를 연결한 분산 시스템이 필수적으로 사용되고 있습니다. 그러나 시스템 규모가 커질수록 GPU 간 데이터 이동, 집합 통신, 동기화, 네트워크 신뢰성 유지에 필요한 비용이 급격히 증가하며, 이는 전체 성능과 에너지 효율을 제한하는 핵심 요인이 됩니다. 본 연구는 이러한 문제를 해결하기 위해 초거대 AI 모델의 학습 및 추론을 위한 비용 효율적인 스케일업 및 스케일아웃 네