차세대 분산 AI 추론용 스위치리스 In-network Processing 아키텍처

최근 초거대 인공지능 모델의 발전은 AI 시스템의 병목이 단일 GPU의 연산 성능을 넘어, 여러 GPU와 서버를 얼마나 효율적으로 연결하고 확장할 수 있는가의 문제로 이동하고 있음을 보여줍니다. 대규모 언어모델과 Mixture-of-Experts 모델은 수천억에서 조 단위의 파라미터를 포함하기 때문에 하나의 GPU나 단일 서버 안에 모델 전체를 저장하고 실행하기 어렵습니다. 이에 따라 학습뿐 아니라 추론에서도 다수의 GPU와 노드를 연결한 분산 시스템이 필수적으로 사용되고 있습니다. 그러나 시스템 규모가 커질수록 GPU 간 데이터 이동, 집합 통신, 동기화, 네트워크 신뢰성 유지에 필요한 비용이 급격히 증가하며, 이는 전체 성능과 에너지 효율을 제한하는 핵심 요인이 됩니다.
본 연구는 이러한 문제를 해결하기 위해 초거대 AI 모델의 학습 및 추론을 위한 비용 효율적인 스케일업 및 스케일아웃 네트워크 아키텍처를 개발하는 것을 목표로 합니다. 특히 기존의 고가 네트워크 스위치 중심 구조에서 벗어나, GPU와 DPU를 네트워크의 능동적인 엔드포인트로 활용하는 스위치리스 구조를 탐구합니다. 스위치를 제거하거나 의존도를 줄이면 네트워크 지연시간, 전력 소모, 구축 비용을 낮출 수 있으며, AI 워크로드가 갖는 반복적이고 예측 가능한 통신 패턴을 활용하여 범용 네트워크보다 더 효율적인 도메인 특화 구조를 설계할 수 있습니다.
연구의 핵심은 단순히 더 빠른 네트워크를 만드는 것이 아니라, AI 워크로드에 맞는 새로운 시스템 구조를 제안하는 데 있습니다. 대규모 AI 추론에서는 All-to-All, Gather/Scatter, AllReduce와 같은 집합 통신이 반복적으로 발생하며, 이러한 통신은 모델 병렬화와 전문가 선택 구조에서 특히 중요한 역할을 합니다. 본 연구는 이러한 통신 패턴을 분석하고, 스위치리스 토폴로지에 적합한 라우팅 및 집합 통신 스케줄링 기법을 설계합니다. 또한 기존 네트워크가 제공하는 강한 신뢰성 보장이 대규모 AI 시스템에서는 과도한 성능, 전력, 비용 부담으로 작용할 수 있다는 점에 주목하여, 이른바 인터커넥트 오버헤드를 정량화하고 AI 워크로드 특성에 맞는 신뢰성 완화 및 복구 전략을 함께 탐구합니다.
이를 위해 연구는 단계적으로 추진됩니다. 초기에는 64개 내외 GPU 규모의 스위치리스 스케일업 구조를 대상으로 토폴로지, 라우팅, GPU 기반 통신 오프로딩 기법을 설계하고 평가합니다. 이후에는 대규모 시스템에서 발생하는 신뢰성 오버헤드와 재전송 비용을 분석하여, 성능 저하를 최소화하는 도메인 특화 신뢰성 기법을 개발합니다. DPU와 GPU의 통합적 솔루션을 개발합니다. 이러한 접근은 시뮬레이션, 에뮬레이션, 소규모 테스트베드 평가를 통해 검증될 예정입니다.
본 연구가 성공적으로 수행될 경우, 차세대 초거대 AI 모델의 학습과 추론을 위한 새로운 네트워크 설계 방향을 제시할 수 있을 것으로 기대됩니다. 특히 스위치와 케이블에 대한 의존도를 낮추어 시스템 구축 비용과 운영 비용을 절감하고, 데이터 이동을 줄여 에너지 효율을 높이며, 대규모 AI 인프라의 확장성을 개선할 수 있습니다. 더 나아가 본 연구는 GPU, DPU, 네트워크 토폴로지, 집합 통신 알고리즘을 함께 고려하는 하드웨어-소프트웨어 공동 설계 관점의 연구로서, 향후 국내 AI 반도체 및 데이터센터 인프라 기술 경쟁력 강화에도 기여할 수 있습니다. 초거대 AI 시대에는 연산 장치 자체의 성능뿐 아니라 이를 연결하는 시스템 아키텍처가 전체 경쟁력을 좌우하게 될 것이며, 본 연구는 이러한 변화에 선제적으로 대응하는 기반 기술을 마련하는 데 중요한 의미가 있습니다.

최근 초거대 인공지능 모델의 발전은 AI 시스템의 병목이 단일 GPU의 연산 성능을 넘어, 여러 GPU와 서버를 얼마나 효율적으로 연결하고 확장할 수 있는가의 문제로 이동하고 있음을 보여줍니다. 대규모 언어모델과 Mixture-of-Experts 모델은 수천억에서 조 단위의 파라미터를 포함하기 때문에 하나의 GPU나 단일 서버 안에 모델 전체를 저장하고 실행하기 어렵습니다. 이에 따라 학습뿐 아니라 추론에서도 다수의 GPU와 노드를 연결한 분산 시스템이 필수적으로 사용되고 있습니다. 그러나 시스템 규모가 커질수록 GPU 간 데이터 이동, 집합 통신, 동기화, 네트워크 신뢰성 유지에 필요한 비용이 급격히 증가하며, 이는 전체 성능과 에너지 효율을 제한하는 핵심 요인이 됩니다. 본 연구는 이러한 문제를 해결하기 위해 초거대 AI 모델의 학습 및 추론을 위한 비용 효율적인 스케일업 및 스케일아웃 네

관련 뉴스 게시물이 없습니다.

반복영역 건너뛰기

과제 & 연구자

차세대 분산 AI 추론용 스위치리스 In-network Processing 아키텍처