연구개발
- KAIST총동문회
- 2025-11-05
- 조회수 70

< (하단 왼쪽부터) KAIST 이윤호 박사과정, 김세인 석박통합과정, 김성원 박사과정, 이준석 박사과정, 오윤학 박사과정, (우측상단 왼쪽부터) 이남경 박사과정, UNC 채플 힐 대학 윤석원 박사과정, 이모리 대학 칼 양 교수, KAIST 박찬영 교수 >
환자 진료기록이나 금융 데이터처럼 개인정보를 한곳에 모으기 어려운 문제를 해결하기 위해 ‘연합학습(Federated Learning)’이 고안됐다. 하지만 공동으로 학습한 AI를 각 기관이 자신의 환경에 맞게 최적화하는 과정에서, AI가 특정 기관 데이터에만 과도하게 적응해 새로운 데이터에는 취약해지는 한계가 있었다. 우리 대학 연구진은 이를 해결할 방법을 제시했으며, 병원·은행 같은 보안 분야는 물론, 소셜미디어·온라인 쇼핑처럼 변화가 잦은 환경에서도 안정적인 성능을 확인했다.
우리 대학은 산업및시스템공학과 박찬영 교수 연구팀이 연합학습의 고질적인 성능 저하 문제를 해결하고, AI 모델의 일반화(Generalization) 성능을 크게 향상시키는 새로운 학습 방법을 개발했다고 15일 밝혔다.
연합학습은 여러 기관이 데이터를 직접 주고받지 않고도 공동으로 AI를 학습할 수 있는 방식이다. 그러나 이렇게 완성된 공동 AI 모델을 각 기관이 현장에 맞춰 최적화(파인 튜닝)하는 과정에서 문제가 발생한다. 기존의 폭넓은 지식이 희석되며, AI가 특정 기관의 데이터 특성에만 과도하게 적응하는‘지역 과적합(Local Overfitting)’문제가 생기기 때문이다.
예를 들어 여러 은행이 함께 ‘공동 대출 심사 AI’를 구축한 뒤, 특정 은행이 대기업 고객 데이터를 중심으로 파인튜닝을 진행하면 해당 은행의 AI는 대기업 심사에는 강점을 보이지만 개인이나 스타트업 고객 심사에서는 성능이 떨어지는 지역 과적합 문제가 생긴다.
박 교수 연구팀은 이를 해결하기 위해 ‘합성 데이터(Synthetic Data)’ 방식을 도입했다. 각 기관의 데이터에서 핵심적이고 대표적인 특징만을 추출해 개인정보를 포함하지 않는 가상 데이터를 생성하고, 이를 파인튜닝 과정에 적용한 것이다. 이로써 각 기관의 AI는 개인정보 공유없이 자신의 데이터에 맞춰 전문성을 강화하면서도, 공동학습으로 얻은 폭넓은 시야(일반화 성능)를 잃기 않게 되었다.

< 그림 1 연합학습(Federated Learning)은 여러 기관이 각자의 데이터를 직접 공유하지 않고 공동의 인공지능 모델을 훈련하는 분산형 학습 방식이다. 각 기관은 자신들이 보유한 로컬 데이터(기관 1, 2, 3 데이터)를 이용해 개별 AI 모델을 학습시킨다. 이후, 원본 데이터가 아닌 학습된 모델의 정보만을 안전하게 중앙으로 모아 하나의 성능이 뛰어난 ‘공동 AI 모델’을 구축한다. 이 방식은 민감한 정보의 프라이버시를 보호하면서도 다양한 데이터를 학습한 효과를 얻을 수 있다. >

< 그림 2 연합학습으로 구축된 ‘공동 AI 모델’을 각 기관의 데이터로 파인튜닝(Fine-tuning)하는 과정에서 지역 과적합(Local Overfitting)문제가 발생한다. 예를 들어, 기관 3은 자신들의 데이터(유형 0, 2)로 공동 AI를 파인튜닝하여 해당 유형에 대한 전문가 AI를 만들 수 있지만, 그 과정에서 다른 기관들이 가지고 있던 데이터(유형 1)에 대한 지식은 잊어버리게 된다(정보 손실). 이처럼 각 기관의 AI는 자신들의 데이터에만 최적화되면서, 협업을 통해 얻었던 다른 유형의 문제를 해결하는 능력(일반화 성능)은 점차 잃게 된다. >
연구 결과, 해당 방법은 의료·금융 등 데이터 보안이 중요한 분야에서 특히 효과적일 뿐 아니라, 소셜미디어나 전자상거래처럼 새로운 사용자와 상품이 지속적으로 추가되는 환경에서도 안정적인 성능을 발휘했다. 새로운 기관이 협력에 참여하거나 데이터 특성이 급격히 변하더라도 AI가 혼란스러워하지 않고 안정적으로 성능을 유지할 수 있음을 보여줬다.

< 그림 3 연구팀이 제안한 기술은 ‘합성 데이터’를 활용해 지역 과적합 문제를 해결한다. 각 기관은 자신의 데이터로 AI를 파인튜닝할 때, 다른 기관들의 데이터로 만들어진 ‘글로벌 합성 데이터’를 함께 학습시킨다. 이 합성 데이터는 각 기관의 데이터에 없는 정보(예: 이미지 속 유형 2)를 AI가 잊지 않도록 일종의 ‘백신(Vaccine)’처럼 작용하여, AI가 특정 데이터에 대한 전문성을 기르면서도 다른 유형의 데이터를 해결하는 폭넓은 시야(일반화 성능)를 잃지 않도록 돕는다. >
박찬영 산업및시스템공학과 교수는 “이번 연구는 데이터 프라이버시를 지키면서도, 각 기관의 AI가 전문성과 범용성을 동시에 보장하는 새로운 길을 열었다”라며, “의료 AI, 금융 사기 탐지 AI처럼 데이터 협업이 필수적이지만 보안이 중요한 분야에서 큰 도움이 될 것”이라고 말했다.
이번 연구는 데이터사이언스대학원 김성원 학생이 제1 저자, 박찬영 교수가 교신저자로 참여했으며, 지난 4월 싱가포르에서 열린 인공지능 분야 최고 권위 학술대회인 ‘국제표현학습학회(International Conference on Learning Representations, ICLR) 2025’에서 상위 1.8%의 우수 논문에만 선정되는 구두 발표(Oral Presentation) 대상으로 채택되어 그 우수성을 입증받았다.
※ 논문명: Subgraph Federated Learning for Local Generalization, https://doi.org/10.48550/arXiv.2503.03995
한편, 이번 연구는 정보통신기획평가원의 지원을 받은 ‘강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습’과제와 한국연구재단의 지원을 받은 ‘그래프 파운데이션 모델: 다양한 모달리티 및 도메인에 적용 가능한 그래프 기반 기계 학습’과제와 ‘데이터사이언스융합인재양성 사업’의 성과다.
출처 : https://researchnews.kaist.ac.kr/researchnews/html/news/?mode=V&mng_no=53030
