기계 학습과 최적화 알고리즘의 가속에 대한 통합 이론

최근 인공지능 및 기계학습의 비약적인 발전은 더욱 많은 데이터를 사용해 더욱 큰 인공심층신경망을 훈련하는 방식에 기반하고 있습니다. 이러한 훈련에는 대규모 계산이 활용되는데 최신의 최첨단 인공지능 시스템은 훈련에 많게는 몇 달의 시간과 수 억원의 전기비 및 컴퓨터 하드웨어 비용이 소요됩니다. 따라서 인공신경망 훈련의 효율화는 인공지능 기술의 발전에 직접적으로 기여하게 됩니다.

인공신경망을 “훈련”한다고 의인화해 표현할 때의 “훈련”은 어떠한 손실함수를 최소화하는 최적화 문제를 푸는 것입니다. 구체적으로 인공지능 시스템이 잘못된 결과를 냈을 때 마치 벌점을 주듯이 손실이 발생하는 함수를 정의하고 이러한 벌점을 최소화하는 방향으로 확률경사하강법(stochastic gradient descent)을 사용해 인공신경망을 조금씩 개선해 나가는 것입니다. 이 기법이 경사하강법이라고 불리는 것은 gradient의 반대 방향으로 나아가 마치 산에서 경사를 타고 하강하는 것에 비유해 알고리즘을 이해할 수 있기 때문입니다.

현대의 인공신경망의 훈련에서는 관성(momentum)을 사용해 경사하강법을 가속화합니다. 경사를 타고 하강할 때 한걸음 한걸음 조심스럽게 움직이기보다 관성을 가지고 더 빠르게 내려간다는 직관입니다. 인공지능 시스템에서는 ADAM(Adaptive Moment Estimation)이나 SGD with momentum이 가장 많이 활용되는 확률경사하강법이며, 이 두 기법은 관성을 활용해 훈련을 가속합니다.

하지만 관성기법이 이렇게 중요하게 활용되고 있음에도 불구하고 이에 대한 이론적인 이해는 많이 부족합니다. 앞서 서술한 관성의 가속 원리에 대한 해석은 휴리스틱이고 엄밀하거나 깊이가 있는 이해가 아닙니다. 실제로 인공지능을 훈련할 때 관성이 가속을 해주는 경우도 있지만 반대로 방해가 될 때도 있습니다. 관성을 사용해야할 때는 관성을 얼마나 사용하는 것이 최적인지에 대한 이해도 없습니다. 따라서 실험적으로 관성을 사용해보고 얼마나 잘되는지 결과를 보고 판단하는 기초적인 방식으로 대체로 활용되고 있습니다.

그런데 최근 가속의 근본 원리에 다가갈 수 있는 실마리가 발견되었습니다. 놀랍게도 관성과는 다른 새로운 가속기법이 발견된 것인데요, 구체적으로는 GAN(generative adversarial network)과 같이 적대훈련(adversarial training)을 사용할 때는 관성이 방해가 되고 반대로 역관성(negative momentum)이나 닻(anchoring)기법과 같은 근본적으로 다른 원리의 기법을 통해 가속이 된다는 것입니다. 이러한 새로운 가속현상은 그 자체로도 큰 의미가 있지만, 거시적인 가능성과 실마리를 제시한다고 생각합니다. 가속이라는 것이 사실은 관성 하나뿐인 것이 아니라 다양한(diverse) 현상이고 이러한 여러 가속 현상을 관통하는 구조가 있을 것이라는 가설을 세울 수 있습니다. 그리고 이 여러 가속현상을 함께 연구하면 하나의 가속현상만을 연구할 때는 찾지 못했던 통찰을 발견할 수 있을 것이다는 가설도 함께 세울 수 있습니다.

따라서 본 연구는 가속 현상을 수학적으로 접근해 연구하고자 합니다. 기존의 관성에 기반한 가속만을 연구한 방식과는 달리 본 연구는 여러 설정에서의 가속현상을 살펴보고, 대수적인 기법과 수학적 추상화를 통해 여러 가속현상들을 관통하는 통합 이론을 찾아 가속에 대해 더 깊이 이해하고자 합니다.

지난 10년간 인공지능 기술은 인공심층신망 즉 딥러닝의 비약적 발전과 함께 이론과는 점점 멀어져 갔습니다. 이론적 기반을 찾기보다 실험적으로 결과를 내는 것에 초점을 맞추고 공학적으로 접근해 비약적인 진보를 이루어내었던 것이지요. 하지만 그럴수록 근본적인 원리에 대한 의문점이 생기게 되고, 여기에 수학자들의 역할이 있다고 생각합니다. 본 연구는 기계학습에서의 훈련을 수학적인 관점으로 연구를 함으로서 가속현상에 대한 이해를 얻고 거시적으로 더 나아가 수학을 통해 인공지능의 발전에 기여할 수 있는 방향을 보여줄 수 있을 것으로 기대합니다.

최근 인공지능 및 기계학습의 비약적인 발전은 더욱 많은 데이터를 사용해 더욱 큰 인공심층신경망을 훈련하는 방식에 기반하고 있습니다. 이러한 훈련에는 대규모 계산이 활용되는데 최신의 최첨단 인공지능 시스템은 훈련에 많게는 몇 달의 시간과 수 억원의 전기비 및 컴퓨터 하드웨어 비용이 소요됩니다. 따라서 인공신경망 훈련의 효율화는 인공지능 기술의 발전에 직접적으로 기여하게 됩니다. 인공신경망을 “훈련”한다고 의인화해 표현할 때의 “훈련”은 어떠한 손실함수를 최소화하는 최적화 문제를 푸는 것입니다. 구체적으로 인공지능 시스템이 잘못된 결과를 냈을 때 마치 벌점을 주듯이 손실이 발생하는 함수를 정의하고 이러한 벌점을 최소화하는 방향으로 확률경사하강법(stochastic gradient descent)을 사용해 인공신경망을 조금씩 개선해 나

관련 뉴스 게시물이 없습니다.

반복영역 건너뛰기

과제 & 연구자

기계 학습과 최적화 알고리즘의 가속에 대한 통합 이론