수리과학, 물리학, 화학, 생명과학 분야와 이들을 기반으로 한 융&복합 분야
미래 산업 경쟁력 강화의 근간이 되는 소재 및 ICT 분야
과제 & 연구자
큰 꿈을 향한 무한탐구의 연구열정,
삼성미래기술육성사업이 응원하며 함께 하겠습니다.
ISP(Image Signal Processor)는 디지털카메라의 핵심 기술로서 카메라로 촬영된 raw image를 최고 화질의 sRGB image로 변환시켜주는 역할을 합니다. 전통적인 카메라 ISP 기술은 고정된 구조와 프로세스로 인해 소비자의 다양하고 변화하는 요구에 유연하게 대응하기 어렵다는 한계가 존재합니다. 딥러닝 발전으로 ISP 내의 개별 모듈의 성능이 향상되었지만, 여전히 통합적이고 유연한 솔루션은 부족한 상황입니다. 한편 최근 생성형 AI의 핵심 기술로 자리잡은 디퓨전(diffusion) 모델은 “지브리 스타일 이미지”처럼 이미지 생성, 향상, 편집 등에서 강력한 성능을 보여주고 있습니다.
이러한 상황에서 본 과제는 다음 질문으로부터 시작되었습니다: “디퓨전 모델을 통해 텍스트만으로 사진을 생성할 수 있다면, 이를 카메라 센서에 담긴 데이터로부터 더욱 향상된 사진을 생성하고 다양한 사진관련 기능을 갖춘 카메라를 만들 수는 없을까?” 이에 본 연구과제에서는 단일 디퓨전 모델을 통해 ISP를 대체하는 방안을 제안하며, 이를 통해 이미지 생성과 편집을 통합적으로 처리할 수 있는 새로운 카메라 기반 모델 (Camera Foundation Model)을 개발하고자 합니다. 이 기술은 단순히 raw 이미지를 sRGB 이미지로 변환하는 기능을 넘어, 사용자 맞춤형 화질 (image personalization)을 제공하고, 다양한 이미지 편집 기능을 지원할 수 있는 사진계의 ChatGPT라고 볼 수 있습니다.
(그림 1)
본 과제에서 제안하는 하나의 디퓨전 모델을 사용하는 Camera Foundation Model
본 연구에서는 디퓨전 카메라 개발의 위해 다음과 같은 핵심 기술 개발을 목표로 하고 있습니다.
(1) Multi-Task ISP 모델 – 센서 비종속적 Neural Color Space를 설계하고, ISP 및 이미지 편집 기능을 통합한 Multi-Task Diffusion 모델 개발
(2) 개인 맞춤 이미지 프로세싱 – ISP Style Vector와 Few-Shot Adaptation을 적용해 사용자 스타일을 반영한 맞춤형 처리 구현
(3) 대규모 데이터셋 구축 – 실제 RAW 데이터와 합성 데이터(Inverse ISP 활용)를 포함한 데이터셋을 구축해 모델 학습 및 평가를 진행
지금까지 대다수의 디퓨전 기반 이미지 처리 기술들은 저조도 영상개선, super-resolution 등의 단일 임무를 해결하는 방향이었던 반면, 본 연구는 ISP를 포함 카메라 내 필요한 다양한 태스크를 통합적으로 풀려고 한다는 측면에서 독창성을 지니고 있고, 오랜 기간 동안 기본적인 틀을 유지하고 있는 카메라 ISP의 패러다임을 바꿀 수 있는 기술이라고 생각합니다. 학술적으로는 camera foundation 모델이라는 새로운 개념을 제시하고, 산업적으로는 차세대 영상 처리 솔루션을 지원하며, 개인 맞춤형 이미지 처리를 통해 사죄 전반에 영향을 줄 것으로 기대합니다.
ISP(Image Signal Processor)는 디지털카메라의 핵심 기술로서 카메라로 촬영된 raw image를 최고 화질의 sRGB image로 변환시켜주는 역할을 합니다. 전통적인 카메라 ISP 기술은 고정된 구조와 프로세스로 인해 소비자의 다양하고 변화하는 요구에 유연하게 대응하기 어렵다는 한계가 존재합니다. 딥러닝 발전으로 ISP 내의 개별 모듈의 성능이 향상되었지만, 여전히 통합적이고 유연한 솔루션은 부족한 상황입니다. 한편 최근 생성형 AI의 핵심 기술로 자리잡은 디퓨전(diffusion) 모델은 “지브리 스타일 이미지”처럼 이미지 생성, 향상, 편집 등에서 강력한 성능을 보여주고 있습니다. 이러한 상황에서 본 과제는 다음 질문으로부터 시작되었습니다: “디퓨전 모델을 통해 텍스트만으로 사진을 생성할 수 있다면, 이를