수리과학, 물리학, 화학, 생명과학 분야와 이들을 기반으로 한 융&복합 분야
미래 산업 경쟁력 강화의 근간이 되는 소재 및 ICT 분야
과제 & 연구자
큰 꿈을 향한 무한탐구의 연구열정,
삼성미래기술육성사업이 응원하며 함께 하겠습니다.
최근 인공지능 발달에 힘입어 로봇 기반 모델(robotic foundation model)이 제시되고 있습니다. 기반모델(foundation model)이란, 특정 기능을 수행하도록 학습된 기존 지도 학습 패러다임에서 벗어나, 굉장히 많은 양의 데이터로 학습되어 미리 한정 지어지지 않은 기능까지 수행할 수 있는 일반화되는 인공지능의 패러다임입니다. 특히 많은 양의 이미지를 활용하는 시각기반모델(vision foundation model)이나 ChatGPT 등으로 대표되는 언어모델(Large language model)의 발달로, 일상적인 환경에서 찍은 카메라 이미지나 사람이 일상적으로 사용하는 언어를 사용해서 다양한 기능을 수행하는 예가 제시되고 있습니다. 로봇 기반 모델은 비정형적이고 다양한 일상 환경에서도 로봇을 사용할 수 있는 가능성을 보여줍니다.
저희 연구는 현재 로봇 기반 모델의 한계를 극복하기 위해 필요한 핵심 기능에 대한 고민을 담고 있습니다. 현재의 로봇 기반 모델은 주로 영상이나 언어 기반모델을 활용하여 사람과 직관적인 상호작용이 가능한 예들을 보여주고 있습니다. 일상적인 언어나 사진을 활용한 예는 비전문가도 쉽게 로봇 제어를 할 수 있음을 보여줍니다. 기존의 로봇은 사용 위치나 환경, 수행할 기능이 특화되어 있는 형태로 발전되었던 것과 대비되어 매우 고무적입니다. 하지만 영상은 기본적으로 수동적으로 환경을 측정하여 2차원으로 정사된 정보이고 3차원 정보는 간접적으로 학습되기 때문에 물리적, 공간적인 정보를 명확하게 표현하기 어렵습니다. 언어 또한 의미를 전달할 때에 포괄적이거나 추상적인 경우가 많아서 물체를 정교하게 조작하는 데에 필요한 섬세함을 보장하기 어렵습니다. 저희는 영상과 언어에서 더 나아가 획득하기위해 로봇이 능동적으로 움직이며 물리 정보를 추론하고, 여러 시점의 정보를 직접적인 3차원 표현에 담아내어 이러한 한계를 극복해보고자 합니다. 이를 통해 다양한 상황에서 일상생활에 필요한 기능을 수행할 수 있는 진정한 기반 모델을 개발할 수 있으리라 기대합니다.
인구 감소와 생산 구조의 변화는 우리 사회가 피할 수 없는 현실입니다. 기존 로봇 기반 모델의 가능성을 활용하면서도 다양한 환경의 3차원 물리 공간을 이해하는 능력을 추가하여 학습시킨다면, 인공지능의 능력을 생활 속에서 능동적으로 활용하도록 로봇의 역할을 확장시킬 수 있을 것입니다. 이를 통해 궁극적으로 우리 사회에 필요한 생산성과 노동력을 보조하고 삶의 질을 향상시키는 데에 기여하고 싶습니다.

그림 1. 최종연구목표. 3차원 공간에 대한 직접적인 인지를 할 수 있는 로봇기반모델. 이를 통해 시점 변화를 통한 가려짐(occlusion) 처리, 도구의 물리적 특성을 고려한 활용이 가능.
최근 인공지능 발달에 힘입어 로봇 기반 모델(robotic foundation model)이 제시되고 있습니다. 기반모델(foundation model)이란, 특정 기능을 수행하도록 학습된 기존 지도 학습 패러다임에서 벗어나, 굉장히 많은 양의 데이터로 학습되어 미리 한정 지어지지 않은 기능까지 수행할 수 있는 일반화되는 인공지능의 패러다임입니다. 특히 많은 양의 이미지를 활용하는 시각기반모델(vision foundation model)이나 ChatGPT 등으로 대표되는 언어모델(Large language model)의 발달로, 일상적인 환경에서 찍은 카메라 이미지나 사람이 일상적으로 사용하는 언어를 사용해서 다양한 기능을 수행하는 예가 제시되고 있습니다. 로봇 기반 모델은 비정형적이고 다양한 일상 환경에서도 로봇을 사용할 수 있는 가능성을 보여줍니다. 저희