KAIST, 인공지능이 상황에 따라 알아서 업데이트되다

권기산 기자 2024-03-15 (금) 08:07 1개월전 276  

- 전기및전자공학부 황의종 교수팀, 데이터 분포가 변화하는 드리프트 환경에서도 인공지능이 업데이트를 통해 좋은 성능을 유지할 수 있도록 하는 신뢰할 수 있는 학습 데이터 선택 기법 개발

- 시간에 따라 데이터가 쉽게 변할 수 있는 제조 및 공정, 기상, 그리고 금융 등의 분야에 적용되어 빠른 발전을 가져올 것으로 기대

- 인공지능 분야 최고권위 국제학술대회 ‘국제인공지능학회(AAAI 2024)’ 에 발표 

 

e71a9095350872e3a7d0e909131f364e_1710457635_377.png 

▲본 연구에서 제안한 알고리즘이 드리프트 환경에서 적절한 학습 데이터를 선택하는 예시. 과거 데이터 중에서 현재 상황을 위한 모델 학습에 도움이 될 수 있는 데이터를 선택하고, 오히려 피해를 주는 데이터는 제거함으로써 최적의 학습 데이터를 구성한다.

 

최근 실생활에 활용되는 인공지능 모델이 시간이 지남에 따라 성능이 점차 떨어지는 현상이 다수 발견되었고, 이에 따라 지속가능한 인공지능 학습 기술에 대한 필요성이 커지고 있다. AI 모델이 꾸준히 정확한 판단을 내리는 것은 더욱 안전하고 신뢰할 수 있는 인공지능을 만들기 위한 중요한 요소이다.

 

KAIST(총장 이광형)는 전기및전자공학부 황의종 교수 연구팀이 시간에 따라 데이터의 분포가 변화하는 드리프트 환경에서도 인공지능이 정확한 판단을 내리도록 돕는 새로운 학습 데이터 선택 기술을 개발했다고 14일 밝혔다.

 

최근 인공지능이 다양한 분야에서 인간의 능력을 뛰어넘을 정도의 높은 성능을 보여주고 있지만, 대부분의 좋은 결과는 AI 모델을 훈련시키고 성능을 테스트할 때 데이터의 분포가 변하지 않는 정적인 환경을 가정함으로써 얻어진다. 하지만 이러한 가정과는 다르게 SK 하이닉스의 반도체 공정 과정에서 시간에 따른 장비의 노화와 주기적인 점검으로 인해 센서 데이터의 관측값이 지속적으로 변화하는 드리프트 현상이 관측되고 있다.

 

시간이 지나면서 데이터와 정답 레이블 간의 결정 경계 패턴이 변경되면, 과거에 학습되었던 AI 모델이 내린 판단이 현재 시점에서는 부정확하게 되면서 모델의 성능이 점차 악화될 수 있다.

 

본 연구팀은 이러한 문제를 해결하기 위해, 데이터를 학습했을 때 AI 모델의 업데이트 정도와 방향을 나타내는 그래디언트(gradient)를 활용한 개념을 도입하여 제시한 개념이 드리프트 상황에서 학습에 효과적인 데이터를 선택하는 데에 도움을 줄 수 있음을 이론적으로 실험적으로 분석했다. 그리고 이러한 분석을 바탕으로 효과적인 학습 데이터 선택 기법을 제안하여, 데이터의 분포와 결정 경계가 변화해도 모델을 강건하게 학습할 수 있는 지속 가능한 데이터 중심의 AI 학습 프레임워크를 제안했다.

 

본 학습 프레임워크의 주요 이점은, 기존의 변화하는 데이터에 맞춰서 모델을 적응시키는 모델 중심의 AI 기법과 달리, 드리프트의 주요 원인이라고 볼 수 있는 데이터 자체를 직접 전처리를 통해 현재 학습에 최적화된 데이터로 바꿔줌으로써, 기존의 AI 모델 종류에 상관없이 쉽게 확장될 수 있다는 점에 있다. 실제로 본 기법을 통해 시간에 따라 데이터의 분포가 변화되었을 때에도 AI 모델의 성능, 즉 정확도를 안정적으로 유지할 수 있었다.

 

제1저자인 김민수 박사과정 학생은 "이번 연구를 통해 인공지능을 한번 잘 학습하는 것도 중요하지만, 그것을 변화하는 환경에 따라 계속해서 관리하고 성능을 유지하는 것도 중요하다는 사실을 알릴 수 있으면 좋겠다ˮ고 밝혔다.

 

연구팀을 지도한 황의종 교수는 “인공지능이 변화하는 데이터에 대해서도 성능이 저하되지 않고 유지하는 데에 도움이 되기를 기대한다”고 말했다.

 

본 연구에는 KAIST 전기및전자공학부의 김민수 박사과정이 제1저자, 황성현 박사과정이 제2저자, 그리고 황의종 교수(KAIST)가 교신 저자로 참여했다. 이번 연구는 지난 2월 캐나다 밴쿠버에서 열린 인공지능 최고 권위 국제학술 대회인 ‘국제 인공지능 학회(Association for the Advancement of Artificial Intelligence, AAAI)’에서 발표되었다. (논문명: Quilt: Robust Data Segment Selection against Concept Drifts)

 

한편, 이 기술은 SK 하이닉스 인공지능협력센터(AI Collaboration Center; AICC)의 지원을 받은 ‘노이즈 및 변동성이 있는 FDC 데이터에 대한 강건한 학습’ 과제 (K20.05) 와 정보통신기획평가원의 지원을 받은 ‘강건하고 공정하며 확장가능한 데이터 중심의 연속 학습’ 과제 (2022-0-00157) 와 한국연구재단의 지원을 받은 ‘데이터 중심의 신뢰 가능한 인공지능’ 과제 성과이다.

 

용어 설명:

● 인공지능 정확도(AI accuracy): 인공지능 정확도는 AI 모델이 주어진 작업을 얼마나 정확하게 수행하는지를 나타내는 측정 지표이다. 일반적으로는 AI 모델이 올바르게 예측한 데이터의 비율로 표현되며, 높은 정확도는 AI 모델의 좋은 성능을 나타낸다. 정확도는 다양한 분야에서 사용되며, 특히 분류(classification) 작업에서 많이 활용된다.

● 인공지능 강건성(AI robustness): 인공지능 강건성은 AI 모델이 다양한 상황에서 안정적으로 작동하고 성능을 유지하는 능력을 나타낸다. 즉, AI 모델이 훈련되지 않은 데이터나 예상치 못한 상황에서도 정확하고 안정적인 예측을 수행할 수 있는 정도를 뜻한다. 특히, 실제 세계에서는 다양한 불확실성과 도메인 변화가 발생할 수 있으므로, 강건성이 높은 AI 모델은 더 효과적으로 다양한 상황에서 활용될 수 있다.

● 결정 경계(decision boundary): 결정 경계는 분류 AI 모델에서 서로 다른 클래스들을 구분하는 경계를 의미한다. 이 경계는 AI 모델이 입력 데이터를 기반으로 예측을 수행할 때, 각 클래스에 속하는 지점들을 구분하는 선, 곡선, 또는 다차원 공간에서의 경계를 나타낸다.

● 드리프트(drift): 드리프트는 AI 모델에서 사용된 데이터의 특성이나 분포가 시간이 지나면서 변화하는 현상을 나타낸다. AI 모델이 훈련된 초기 상태에서는 데이터의 특성이나 환경이 일정하다고 가정하지만, 실제로는 시간이나 외부 요인에 따라 데이터의 특성이 변할 수 있다. 이러한 변화로 인해 AI 모델이 훈련된 데이터와 현재 데이터 간의 불일치가 발생하게 되어 AI 모델의 성능이 저하될 수 있다.

● 그래디언트(gradient): 그래디언트는 수학적으로 함수의 값이 가장 빠르게 증가하는 방향과 크기를 나타내는 벡터이다. 기계 학습에서는 그래디언트가 주로 손실 함수(비용 함수)에 대한 기울기로 활용된다. 경사 하강법과 같은 최적화 알고리즘에서는 손실 함수의 그래디언트를 이용하여 AI 모델의 파라미터를 업데이트하면서 손실을 최소화하려고 한다.

 

 

 

<저작권자 ©특허방송, 무단 전재 및 재배포 금지>

<저작권자 ©특허방송, 무단 전재 및 재배포 금지>