과제 & 연구자 | 삼성미래기술
메인메뉴 바로가기 본문영역 바로가기 푸터영역 바로가기

과제 & 연구자

과제 & 연구자

큰 꿈을 향한 무한탐구의 연구열정,
삼성미래기술육성사업이 응원하며 함께 하겠습니다.

20-2_정성규 교수_서울대.png

정성규

소속기관 서울대학교 통계학과

선정연도 2020년

연구실 홈페이지

다출처자료 인자모형의 일반화와 통계이론

다출처자료(multi-source data)란 서로 다른 특성을 가진 여러 개의 자료 또는 데이터셋을 통합적으로 이르는 용어입니다. 기술의 발전으로 정보의 대규모 수집이 가능해지고 있어, 한 관측유닛에 대한 여러 개의 자료 또는 한 현상에 대한 여러 개의 실험·관찰자료가 폭발적으로 늘어나고 있습니다. 이러한 다출처자료를 연계하여 기저의 시스템을 추출하고 미 관측된 현상을 예측하는 방법론의 개발이 현재 의료영상분석, 생물정보학, 기계학습 등의 응용분야에서 활발하게 이루어지고 있습니다. 이때, 기저의 시스템을 추출하는 효율적인 모형 중의 하나가 바로 인자모형(factor model)이다. 미지의 복잡한 확률 구조를 가진 대량의 데이터에서 간단한 확률 구조를 가진 소량의 인자—즉, 원인이 되는 요소—를 추출하는 모형과 방법론을 통틀어 인자모형이라고 부릅니다.

 

한 현상의 여러 다른 면을 관찰함으로서 얻어지는 다출처자료의 인자모형에서는 모든 출처에 영향을 미치는 인자와 일부 또는 단일 출처에만 영향을 미치는 인자를 정확히 구분하는 모형선택의 일치성(model selection consistency)을 담보하면서 그 인자를 정확히 예측하는 것이 핵심적인 과제입니다. 다출처자료의 인자모형을 중심으로 다출처자료 연계 방법론은 급격히 발전해 왔으나, 개발된 방법론의 이론적 근거가 부족하고, 성능평가의 이론적 지표가 개발되지 않아 휴리스틱 또는 실증적 평가에 기대고 있는 실정입니다. 특히 현대의 의료·생명정보 데이터에서는 변량의 수가 관측값의 수보다 매우 높은, 소위 고차원-소표본 데이터 문제가 빈번히 발생하고 있으며, 자료의 형태가 다변화하여 기존의 전통적인 통계방법론으로 다룰 수 없는 문제가 발생합니다. 


이에, 다출처자료 인자모형의 적합 방법을 이론적으로 평가할 기준을 마련하고, 고차원-소표본 상황에서도 모형선택의 일치성을 가지는 방법론의 개발과 함께 데이터 형태 다변화에 대응하고자 합니다.

 

통계적 이론 전개의 핵심 착안점은 모형선택의 문제를 예측된 인자가 생성(span)하는 인자공간(factor subspace)들 간의 거리 또는 canonical angle에 관한 문제로 바꿀 수 있다는 점입니다. 이를 통해, 모형 적합과정에서의 모형 선택을 전통적인 통계적 가설 검정의 틀을 이용하여 분석할 수 있습니다. Canonical angle의 대표본 이론은 일부 알려져 있는데, 본 연구에서는 이를 확장하여 다출처자료 연계모형에 적용함에 머무르지 않고, 고차원-소표본 상황 즉, 변량의 수가 관측값의 수보다 훨씬 많은 상황, 또는 인자의 수가 무한히 늘어나는 점근상황에서의 canonical angle을 확률적으로 분석하고자 합니다. 여기서 밝힌 canonical angle의 점근적 확률성질은 모형선택의 일치성을 가지는 다출처자료 연계모형 추정법 개발에 사용할 것입니다.

 

현대 통계학의 주요 과제 중 하나는 형태가 다변화된 데이터로부터 기저의 시스템을 추론하는 것입니다. 일반적인 숫자들로 이루어진 데이터와 비유클리드 공간(non-Euclidean space)의 값을 가지는 데이터를 연계할 필요성이 더욱 높아질 것으로 예측됩니다. 특히 매끈한 리만 다양체(Riemannian manifold)의 값을 가지는 자료—예를 들면, 초구체(hypersphere) 위의 방향데이터, 정부호행렬로 이루어진 확산 텐서 데이터(diffusion tensor data) 등—는 비선형공간에 존재하지만 국소적으로 선형구조를 가지고 있으므로 좌표근방계(atlas)를 이용한 데이터의 선형화가 가능합니다. 이에 착안하여, 연속 (숫자), 이산 (범주형), 다양체 등의 값을 가지는 다출처-이종(heterogeneous) 데이터셋들의 연계를 위한 일반화된 통합적 자료분석모형과 그 추정법을 개발하고자 합니다.

 

다출처자료의 연계는 이미 여러 응용분야에서 성공적으로 적용되고 있지만, 통계이론의 개발은 등한시되어 데이터로부터 결론을 내리는 데에는 사용되지 못하고 있습니다. 본 연구는 다출처연계방법론에 엄밀한 통계적 추론을 도입함으로써 적합 모형에 내재된 불확실성을 정량화할 수 있게 하여, 데이터로부터의 추론을 용이하게 하는 실용적인 의의가 있습니다. 또한 복잡한 구조를 가진 비표준적인 데이터, 특히 고차원데이터와 다양한 형태의 비유클리드 데이터의 통계분석 방법론과 이론 분야에 공헌을 할 것으로 기대합니다.

다출처자료(multi-source data)란 서로 다른 특성을 가진 여러 개의 자료 또는 데이터셋을 통합적으로 이르는 용어입니다. 기술의 발전으로 정보의 대규모 수집이 가능해지고 있어, 한 관측유닛에 대한 여러 개의 자료 또는 한 현상에 대한 여러 개의 실험·관찰자료가 폭발적으로 늘어나고 있습니다. 이러한 다출처자료를 연계하여 기저의 시스템을 추출하고 미 관측된 현상을 예측하는 방법론의 개발이 현재 의료영상분석, 생물정보학, 기계학습 등의 응용분야에서 활발하게 이루어지고 있습니다. 이때, 기저의 시스템을 추출하는 효율적인 모형 중의 하나가 바로 인자모형(factor model)이다. 미지의 복잡한 확률 구조를 가진 대량의 데이터에서 간단한 확률 구조를 가진 소량의 인자—즉, 원인이 되는 요소—를 추출하는 모형과 방법론을 통틀어 인자모형이라고 부릅니다. &

더보기
관련 뉴스 게시물이 없습니다.