연구개발
-
[연구]개인 맞춤형 정밀 의학 정확도 높일 ‘렌즈’ 개발
< 수리과학과 김재경 교수 >평균이 아닌 개인차를 고려하는 정밀 의학 시대가 열렸다. 사람마다 다른 유전적 특징을 알아내는 기술이 비약적으로 발전한 덕분이다. 더 빠르고, 정확하게 전사체를 해독할 수 있는 새로운 도구가 개발됐다. 우리 대학 수리과학과 김재경 교수(IBS 수리 및 계산 과학 연구단 의생명 수학 그룹 CI) 연구팀은 전사체 분석 빅데이터에서 유용한 생물학적 정보만 골라내는 새로운 도구인 ‘scLENS(single-cell Low-dimension Embedding using Effective Noise Subtraction)’를 개발했다.단일세포 전사체 분석은 최근 생물학, 신약 개발, 임상 연구 등 여러 분야에서 주목받는 도구다. 개별 세포 단위에서 유전적 변화를 확인할 수 있기 때문이다. 가령, 단일세포 전사체 분석을 이용하면 암 조직 내 수십 가지 종류의 세포를 구분하고, 유전적 변이가 발생한 세포만 표적하는 정밀 치료가 가능해진다.단일세포 전사체 분석 기술이 임상에 광범위하게 이용되려면, 도출되는 빅데이터에서 유용한 생물학적 신호를 찾아내는 효율적인 분석 도구 개발이 선행돼야 한다. 단일세포 전사체 분석은 수백~수천 개에 이르는 개별 세포의 수만 개에 이르는 다양한 유전자 발현량을 측정하기 때문에 데이터 용량이 수~수십 GB에 달한다. 이 방대한 데이터 중 생물학적으로 유용한 신호는 3% 내외에 불과하다.이 방대하고 노이즈(잡신호)가 많은 데이터에서 유용한 생물학적 신호를 골라내기 위해 지금까지 여러 데이터 처리 도구가 개발됐다. 하지만 기존 도구는 사용자가 생물학적 신호와 노이즈의 ‘경계선’을 직접 설정해야 해서 주관이 개입됐다. 즉, 분석가에 따라 결과가 크게 달라지고, 정확도가 떨어진다는 한계가 있었다.< 그림 1. scLENS 개요. (왼쪽) 기존의 단일세포 전사체 분석 방법은 로그 정규화를 이용해 데이터 전처리를 하고 전처리된 데이터로 부터 사용자가 직접 임계값을 설정하여 신호와 노이즈를 구별해야한다. 이 과정에서 신호 왜곡이 발생하여 분석결과가 부정확해짐을 이번 연구에서 밝혀내었다. (오른쪽) 연구진은 기존 로그 정규화에 L2 정규화를 통합하면 전처리 과정에서 신호 왜곡을 방지할 수 있음을 밝혔다. 나아가 랜덤 행렬 이론을 이용하여 사용자의 선택 없이 데이터에만 기반하여 신호와 노이즈를 구별하는 임계값을 설정하는 방법을 개발하였다. 덕분에 scLENS는 정확하고 자동화된 데이터 분석이 가능하다. >우선, 연구진은 기존 분석 도구들이 부정확한 근본적인 원인을 규명하고 해결책을 제시했다. 사용자가 노이즈의 임계값을 결정하는 데이터 전처리 방식 자체가 생물학적 신호를 왜곡시킨다는 것을 규명하고, 왜곡 없는 새로운 전처리 방식을 개발했다. 나아가 연구진은 수학적 방법론인 ‘랜덤 행렬 이론’을 이용해 사용자의 주관적 선택 없이 자동으로 단일세포 전사체 분석 데이터에서 신호와 노이즈를 구별하는 프로그램인 ‘scLENS’를 개발했다.제1 저자인 김현 연구원은 “scLENS는 사용자의 선택 없이 데이터에 내재된 구조만을 이용해 자동으로 신호와 노이즈를 구별하기 때문에 사용자 편향성 문제를 원천 차단할 수 있다”며 “연구자들의 노동집약적인 신호 선택 과정을 없애면서도 분석 정확성은 높였다”고 설명했다.이어 연구진은 기존 개발된 11가지 데이터 분석 프로그램과 scLENS의 상대적 성능을 비교했다. 이를 통해 scLENS가 다른 모든 프로그램보다 우수한 성능을 보인다는 점을 확인할 수 있었다. 널리 쓰이는 프로그램인 ‘Seurat’과 비교했을 때 scLENS는 세포 그룹화 성능이 약 10% 이상 우수하며, 데이터에 내재된 국소 구조를 43% 더 효과적으로 포착하는 것으로 나타났다.< 그림 2. scLENS 성능. a. scLENS는 11개의 다른 분석 도구들과 비교했을 때, 가장 높은 실루엣 스코어(파란색 막대)를 기록하였다. 이는 scLENS가 실제 세포 유형(true cell-type)을 가장 잘 반영하는 차원 축소 결과(임베딩)를 생성한다는 것을 의미한다. 더 나아가, 이 차원 축소 결과에 계층적 클러스터링(초록색 막대)과 그래프 기반 클러스터링(주황색 막대)을 적용하여 레이블을 얻었을 때, 실제 세포 유형과의 유사도가 다른 분석 도구들에 비해 가장 높게 나타났다. b. scLENS는 타 분석 도구들에 비해 원래 데이터로부터 얻은 k-최근접 이웃 구조와 가장 유사한 구조를 다운 샘플링된 데이터로부터 얻어낼 수 있음을 가장 높은 k-최근접 이웃 중첩 점수(kNN-overlap score)를 기록함으로써 입증했다. >특히, scLENS는 기존 프로그램보다 많은 계산을 하지만 메모리 사용 최적화를 통해 10만 개의 세포와 2만 개의 유전자로 이뤄진 대규모 데이터를 3시간 만에 분석하는 경쟁력 있는 분석 속도를 보였다.연구를 이끈 김재경 CI는 “지난 십여 년간 단일세포 전사체를 분석할 수 있는 실험 기술의 비약적인 발전했지만, 데이터 분석 방법의 한계로 인해 큰 비용과 시간을 투자해 얻은 데이터를 최대한 활용하지 못하는 경우가 많았다”며 “기초 수학 이론이 생명과학 연구의 혁신을 견인하고, 감춰졌던 생명의 비밀을 빠르고 정확하게 밝히는 데 쓰일 수 있음을 보여주는 연구”라고 말했다.연구결과는 4월 27일(한국시간) 국제학술지 ‘네이처 커뮤니케이션즈(Nature Communications, IF 16.6)’ 온라인판에 실렸다.
- 총동문회 관리자
- 2024-09-12
-
[연구]개인 맞춤형 정밀 의학 정확도 높일 ‘렌즈’ 개발
< 수리과학과 김재경 교수 >평균이 아닌 개인차를 고려하는 정밀 의학 시대가 열렸다. 사람마다 다른 유전적 특징을 알아내는 기술이 비약적으로 발전한 덕분이다. 더 빠르고, 정확하게 전사체를 해독할 수 있는 새로운 도구가 개발됐다. 우리 대학 수리과학과 김재경 교수(IBS 수리 및 계산 과학 연구단 의생명 수학 그룹 CI) 연구팀은 전사체 분석 빅데이터에서 유용한 생물학적 정보만 골라내는 새로운 도구인 ‘scLENS(single-cell Low-dimension Embedding using Effective Noise Subtraction)’를 개발했다.단일세포 전사체 분석은 최근 생물학, 신약 개발, 임상 연구 등 여러 분야에서 주목받는 도구다. 개별 세포 단위에서 유전적 변화를 확인할 수 있기 때문이다. 가령, 단일세포 전사체 분석을 이용하면 암 조직 내 수십 가지 종류의 세포를 구분하고, 유전적 변이가 발생한 세포만 표적하는 정밀 치료가 가능해진다.단일세포 전사체 분석 기술이 임상에 광범위하게 이용되려면, 도출되는 빅데이터에서 유용한 생물학적 신호를 찾아내는 효율적인 분석 도구 개발이 선행돼야 한다. 단일세포 전사체 분석은 수백~수천 개에 이르는 개별 세포의 수만 개에 이르는 다양한 유전자 발현량을 측정하기 때문에 데이터 용량이 수~수십 GB에 달한다. 이 방대한 데이터 중 생물학적으로 유용한 신호는 3% 내외에 불과하다.이 방대하고 노이즈(잡신호)가 많은 데이터에서 유용한 생물학적 신호를 골라내기 위해 지금까지 여러 데이터 처리 도구가 개발됐다. 하지만 기존 도구는 사용자가 생물학적 신호와 노이즈의 ‘경계선’을 직접 설정해야 해서 주관이 개입됐다. 즉, 분석가에 따라 결과가 크게 달라지고, 정확도가 떨어진다는 한계가 있었다.< 그림 1. scLENS 개요. (왼쪽) 기존의 단일세포 전사체 분석 방법은 로그 정규화를 이용해 데이터 전처리를 하고 전처리된 데이터로 부터 사용자가 직접 임계값을 설정하여 신호와 노이즈를 구별해야한다. 이 과정에서 신호 왜곡이 발생하여 분석결과가 부정확해짐을 이번 연구에서 밝혀내었다. (오른쪽) 연구진은 기존 로그 정규화에 L2 정규화를 통합하면 전처리 과정에서 신호 왜곡을 방지할 수 있음을 밝혔다. 나아가 랜덤 행렬 이론을 이용하여 사용자의 선택 없이 데이터에만 기반하여 신호와 노이즈를 구별하는 임계값을 설정하는 방법을 개발하였다. 덕분에 scLENS는 정확하고 자동화된 데이터 분석이 가능하다. >우선, 연구진은 기존 분석 도구들이 부정확한 근본적인 원인을 규명하고 해결책을 제시했다. 사용자가 노이즈의 임계값을 결정하는 데이터 전처리 방식 자체가 생물학적 신호를 왜곡시킨다는 것을 규명하고, 왜곡 없는 새로운 전처리 방식을 개발했다. 나아가 연구진은 수학적 방법론인 ‘랜덤 행렬 이론’을 이용해 사용자의 주관적 선택 없이 자동으로 단일세포 전사체 분석 데이터에서 신호와 노이즈를 구별하는 프로그램인 ‘scLENS’를 개발했다.제1 저자인 김현 연구원은 “scLENS는 사용자의 선택 없이 데이터에 내재된 구조만을 이용해 자동으로 신호와 노이즈를 구별하기 때문에 사용자 편향성 문제를 원천 차단할 수 있다”며 “연구자들의 노동집약적인 신호 선택 과정을 없애면서도 분석 정확성은 높였다”고 설명했다.이어 연구진은 기존 개발된 11가지 데이터 분석 프로그램과 scLENS의 상대적 성능을 비교했다. 이를 통해 scLENS가 다른 모든 프로그램보다 우수한 성능을 보인다는 점을 확인할 수 있었다. 널리 쓰이는 프로그램인 ‘Seurat’과 비교했을 때 scLENS는 세포 그룹화 성능이 약 10% 이상 우수하며, 데이터에 내재된 국소 구조를 43% 더 효과적으로 포착하는 것으로 나타났다.< 그림 2. scLENS 성능. a. scLENS는 11개의 다른 분석 도구들과 비교했을 때, 가장 높은 실루엣 스코어(파란색 막대)를 기록하였다. 이는 scLENS가 실제 세포 유형(true cell-type)을 가장 잘 반영하는 차원 축소 결과(임베딩)를 생성한다는 것을 의미한다. 더 나아가, 이 차원 축소 결과에 계층적 클러스터링(초록색 막대)과 그래프 기반 클러스터링(주황색 막대)을 적용하여 레이블을 얻었을 때, 실제 세포 유형과의 유사도가 다른 분석 도구들에 비해 가장 높게 나타났다. b. scLENS는 타 분석 도구들에 비해 원래 데이터로부터 얻은 k-최근접 이웃 구조와 가장 유사한 구조를 다운 샘플링된 데이터로부터 얻어낼 수 있음을 가장 높은 k-최근접 이웃 중첩 점수(kNN-overlap score)를 기록함으로써 입증했다. >특히, scLENS는 기존 프로그램보다 많은 계산을 하지만 메모리 사용 최적화를 통해 10만 개의 세포와 2만 개의 유전자로 이뤄진 대규모 데이터를 3시간 만에 분석하는 경쟁력 있는 분석 속도를 보였다.연구를 이끈 김재경 CI는 “지난 십여 년간 단일세포 전사체를 분석할 수 있는 실험 기술의 비약적인 발전했지만, 데이터 분석 방법의 한계로 인해 큰 비용과 시간을 투자해 얻은 데이터를 최대한 활용하지 못하는 경우가 많았다”며 “기초 수학 이론이 생명과학 연구의 혁신을 견인하고, 감춰졌던 생명의 비밀을 빠르고 정확하게 밝히는 데 쓰일 수 있음을 보여주는 연구”라고 말했다.연구결과는 4월 27일(한국시간) 국제학술지 ‘네이처 커뮤니케이션즈(Nature Communications, IF 16.6)’ 온라인판에 실렸다.
- 총동문회 관리자
- 2024-09-04
-
[연구]인공지능이 상황에 따라 알아서 업데이트되다
< (왼쪽부터) 전기및전자공학부 황의종 교수, 황성현 박사과정, 김민수 박사과정 >최근 실생활에 활용되는 인공지능 모델이 시간이 지남에 따라 성능이 점차 떨어지는 현상이 다수 발견되었고, 이에 따라 지속가능한 인공지능 학습 기술에 대한 필요성이 커지고 있다. AI 모델이 꾸준히 정확한 판단을 내리는 것은 더욱 안전하고 신뢰할 수 있는 인공지능을 만들기 위한 중요한 요소이다. 우리 대학 전기및전자공학부 황의종 교수 연구팀이 시간에 따라 데이터의 분포가 변화하는 드리프트 환경에서도 인공지능이 정확한 판단을 내리도록 돕는 새로운 학습 데이터 선택 기술을 개발했다고 14일 밝혔다. 최근 인공지능이 다양한 분야에서 인간의 능력을 뛰어넘을 정도의 높은 성능을 보여주고 있지만, 대부분의 좋은 결과는 AI 모델을 훈련시키고 성능을 테스트할 때 데이터의 분포가 변하지 않는 정적인 환경을 가정함으로써 얻어진다. 하지만 이러한 가정과는 다르게 SK 하이닉스의 반도체 공정 과정에서 시간에 따른 장비의 노화와 주기적인 점검으로 인해 센서 데이터의 관측값이 지속적으로 변화하는 드리프트 현상이 관측되고 있다. 시간이 지나면서 데이터와 정답 레이블 간의 결정 경계 패턴이 변경되면, 과거에 학습되었던 AI 모델이 내린 판단이 현재 시점에서는 부정확하게 되면서 모델의 성능이 점차 악화될 수 있다. 본 연구팀은 이러한 문제를 해결하기 위해, 데이터를 학습했을 때 AI 모델의 업데이트 정도와 방향을 나타내는 그래디언트(gradient)를 활용한 개념을 도입하여 제시한 개념이 드리프트 상황에서 학습에 효과적인 데이터를 선택하는 데에 도움을 줄 수 있음을 이론적으로 실험적으로 분석했다. 그리고 이러한 분석을 바탕으로 효과적인 학습 데이터 선택 기법을 제안하여, 데이터의 분포와 결정 경계가 변화해도 모델을 강건하게 학습할 수 있는 지속 가능한 데이터 중심의 AI 학습 프레임워크를 제안했다.< 그림 1. 본 연구에서 제안한 알고리즘이 드리프트 환경에서 적절한 학습 데이터를 선택하는 예시 >본 학습 프레임워크의 주요 이점은, 기존의 변화하는 데이터에 맞춰서 모델을 적응시키는 모델 중심의 AI 기법과 달리, 드리프트의 주요 원인이라고 볼 수 있는 데이터 자체를 직접 전처리를 통해 현재 학습에 최적화된 데이터로 바꿔줌으로써, 기존의 AI 모델 종류에 상관없이 쉽게 확장될 수 있다는 점에 있다. 실제로 본 기법을 통해 시간에 따라 데이터의 분포가 변화되었을 때에도 AI 모델의 성능, 즉 정확도를 안정적으로 유지할 수 있었다. 제1 저자인 김민수 박사과정 학생은 "이번 연구를 통해 인공지능을 한번 잘 학습하는 것도 중요하지만, 그것을 변화하는 환경에 따라 계속해서 관리하고 성능을 유지하는 것도 중요하다는 사실을 알릴 수 있으면 좋겠다ˮ고 밝혔다. 연구팀을 지도한 황의종 교수는 “인공지능이 변화하는 데이터에 대해서도 성능이 저하되지 않고 유지하는 데에 도움이 되기를 기대한다”고 말했다. 본 연구에는 KAIST 전기및전자공학부의 김민수 박사과정이 제1 저자, 황성현 박사과정이 제2 저자, 그리고 황의종 교수(KAIST)가 교신 저자로 참여했다. 이번 연구는 지난 2월 캐나다 밴쿠버에서 열린 인공지능 최고 권위 국제학술 대회인 ‘국제 인공지능 학회(Association for the Advancement of Artificial Intelligence, AAAI)’에서 발표되었다. (논문명: Quilt: Robust Data Segment Selection against Concept Drifts) 한편, 이 기술은 SK 하이닉스 인공지능협력센터(AI Collaboration Center; AICC)의 지원을 받은 ‘노이즈 및 변동성이 있는 FDC 데이터에 대한 강건한 학습’ 과제 (K20.05) 와 정보통신기획평가원의 지원을 받은 ‘강건하고 공정하며 확장가능한 데이터 중심의 연속 학습’ 과제 (2022-0-00157) 와 한국연구재단의 지원을 받은 ‘데이터 중심의 신뢰 가능한 인공지능’ 과제 성과다.
- 총동문회 관리자
- 2024-08-05
-
[연구]레이블 없이 훈련 가능한 그래프 신경망 모델 기술 개발
< (왼쪽부터) 우리 대학 산업및시스템공학과 박찬영 교수, 우리 대학 산업및시스템공학과 이남경 석사과정, 포항공과대학교 현동민 박사, 우리 대학 산업및시스템공학과 이준석 석사과정 >최근 다양한 분야 (소셜 네트워크 분석, 추천시스템 등)에서 그래프 데이터 (그림 1) 의 중요성이 대두되고 있으며, 이에 따라 그래프 신경망(Graph Neural Network) 기술을 활용한 서비스가 급속히 증가하고 있다. 서비스 구축을 위해서는 심층 학습 모델을 훈련해야 하며, 이를 위해서는 충분한 훈련 데이터를 준비해야 한다. 특히 훈련 데이터에 정답지를 만드는 레이블링(labeling) 과정이 필요한데 (예를 들어, 소셜 네트워크의 특정 사용자에 `20대'라는 레이블을 부여하는 행위), 이 과정은 일반적으로 수작업으로 진행되므로 노동력과 시간이 소요된다. 따라서 그래프 신경망 모델 훈련 시 데이터가 충분하지 않은 상황을 효과적으로 타개하는 방법의 필요성이 대두되고 있다.< 그림 1. 그래프 데이터 예시 >우리 대학 산업및시스템공학과 박찬영 교수 연구팀이 데이터의 레이블이 없는 상황에서도 높은 예측 정확도를 달성할 수 있는 새로운 그래프 신경망 모델 훈련 기술을 개발했다고 25일 밝혔다. 정점의 레이블이 없는 상황에서 그래프 신경망 모델의 훈련은 데이터 증강을 통해 생성된 정점들의 공통된 특성을 학습하는 과정으로 볼 수 있다. 하지만 이러한 정점의 공통된 특성을 학습하는 과정에서, 기존 훈련 방법은 표상 공간에서 자신을 제외한 다른 정점들과의 유사도가 작아지도록 훈련을 한다. 하지만 그래프 데이터가 정점들 사이의 관계를 나타내는 데이터 구조라는 점을 고려했을 때, 이런 일차원적인 방법론은 정점 간의 관계를 정확히 반영하지 못하게 된다. 박 교수팀이 개발한 기술은 그래프 신경망 모델에서 정점들 사이의 관계를 보존해 정점의 레이블이 없는 상황에서 모델을 훈련시켜 높은 예측 정확도를 달성할 수 있게 해준다.KAIST 산업및시스템공학과 이남경 석사과정이 제1 저자, 현동민 박사, 이준석 석사과정 학생이 제2, 제3 저자로 참여한 이번 연구는 최고권위 국제학술대회 `정보지식관리 콘퍼런스(CIKM) 2022'에서 올 10월 발표될 예정이다. (논문명: Relational Self-Supervised Learning on Graphs) 기존 연구에서는 정점의 레이블이 없는 상황에서 정점에 대한 표상을 훈련하기 위해 표상 공간 내에서 자기 자신을 제외한 다른 정점들과의 유사도가 작아지도록 훈련을 한다. 예를 들어서, 소셜 네트워크에 A, B, C 라는 사용자가 존재할 때, A, B와 C가 표상 공간에서 서로 간의 유사도가 모두 작아지도록 모델을 훈련하는 것이다. 이때 박 교수팀이 착안한 점은 그래프 데이터가 정점 간의 관계를 나타내는 데이터이므로 정점 간의 관계를 포착하도록 정점의 표상을 훈련할 필요가 있다는 점이었다.< 그림 2. 연구팀에서 개발한 “관계 보존 학습” 방법론. 기존 방법론과 달리 데이터 증강 기법을 통해 생성된 두 개의 그래프를 기반으로 노드들 사이의 관계를 보존하면서 모델이 학습된다. 이를 통해 그래프 데이터가 나타내는 관계를 잘 학습하여 예측 정확도가 향상됨을 다양한 실험을 통해서 입증하였다. >즉, A, B와 C 서로 간의 유사도가 모두 작아지게 하는 훈련 메커니즘과는 달리, 실제 그래프상에서는 이들이 연관이 있을 수 있다는 점이다. 따라서 A, B와 C 사이의 관계를 긍정/부정의 이진 분류를 통해 표상 공간에서 유사도가 작아지도록 훈련을 하는 것이 아닌, 이들의 관계를 정의해 그 관계를 보존하도록 학습하는 모델을 연구팀은 개발했다(그림 2). 연구팀은 정점 간의 관계를 기반으로 정점의 표상을 훈련함으로써, 기존 연구가 갖는 엄격한 규제들을 완화해 그래프 데이터를 더 유연하게 모델링했다.< 그림 3. 연구팀이 제안하는 관계 보존 학습 모델의 구조 >연구팀은 이 학습 방법론을 `관계 보존 학습'이라고 명명했으며, 그래프 데이터 분석의 주요 문제(정점 분류, 간선 예측)에 적용했다(그림 3). 그 결과 최신 연구 방법론과 비교했을 때, 정점 분류 문제에서 최대 3% 예측 정확도를 향상했고, 간선 예측 문제에서 6%의 성능 향상, 다중 연결 네트워크 (Multiplex network)의 정점 분류 문제에서 3%의 성능 향상을 보였다. 제1 저자인 이남경 석사과정은 "이번 기술은 데이터의 레이블이 부재한 상황에서도 그래프 신경망을 학습할 수 있는 새로운 방법ˮ 이라면서 "그래프 기반의 데이터뿐만이 아닌 이미지 텍스트 음성 데이터 등에 폭넓게 적용될 수 있어, 심층 학습 전반적인 성능 개선에 기여할 수 있다ˮ고 밝혔다. 연구팀을 지도한 박찬영 교수도 "이번 기술은 그래프 데이터상에 레이블이 부재한 상황에서 표상 학습 모델을 훈련하는 기존 모델들의 단점들을 `관계 보존`이라는 개념을 통해 보완해 새로운 학습 패러다임을 제시하여 학계에 큰 파급효과를 낼 수 있다ˮ라고 말했다.한편, 이번 연구는 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 사람중심인공지능핵심원천기술개발 과제로 개발한 연구성과 결과물(No. 2022-0-00157, 강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습)이다.
- 총동문회 관리자
- 2024-01-11
-
[연구]인공지능 심층 학습(딥러닝) 서비스 구축 비용 최소화 가능한 데이터 정제 기술 개발
< 연구진 사진(좌 박동민 박사과정, 우 이재길 교수) >최근 다양한 분야에서 인공지능 심층 학습(딥러닝) 기술을 활용한 서비스가 급속히 증가하고 있다. 서비스 구축을 위해서 인공지능은 심층신경망을 훈련해야 하며, 이를 위해서는 충분한 훈련 데이터를 준비해야 한다. 특히 훈련 데이터에 정답지를 만드는 레이블링(labeling) 과정이 필요한데 (예를 들어, 고양이 사진에 `고양이'라고 정답을 적어줌), 이 과정은 일반적으로 수작업으로 진행되므로 엄청난 노동력과 시간적 비용이 소요된다. 따라서 훈련 데이터 구축 비용을 최소화하는 방법 개발이 요구되고 있다. 우리 대학 전산학부 이재길 교수 연구팀이 심층 학습 훈련 데이터 구축 비용을 최소화할 수 있는 새로운 데이터 동시 정제 및 선택 기술을 개발했다고 12일 밝혔다. 일반적으로 심층 학습용 훈련 데이터 구축 과정은 수집, 정제, 선택 및 레이블링 단계로 이뤄진다. 수집 단계에서는 웹, 카메라, 센서 등으로부터 대용량의 데이터가 정제되지 않은 채로 수집된다. 따라서 수집된 데이터에는 목표 서비스와 관련이 없어서 주어진 레이블에 해당하지 않는 분포 외(out-of-distribution) 데이터가 포함된다 (예를 들어, 동물 사진을 수집할 때 재규어 `자동차'가 포함됨). 이러한 분포 외 데이터는 데이터 정제 단계에서 정제돼야 한다. 모든 정제된 데이터에 정답지를 만들기 위해서는 막대한 비용이 소모되는데, 이를 최소화하기 위해 심층 학습 성능 향상에 가장 도움이 되는 훈련 데이터를 먼저 선택해 레이블링하는 능동 학습(active learning)이 큰 주목을 받고 있다. 그러나 정제와 레이블링을 별도로 진행하는 것은 데이터 검사 측면에서 중복적인 비용을 초래한다. 또한 아직 정제되지 않고 남아 있는 분포 외 데이터가 레이블링 단계에서 선택된다면 레이블링 노력을 낭비할 수 있다. 이재길 교수팀이 개발한 기술은 훈련 데이터 구축 단계에서 데이터의 정제 및 선택을 동시에 수행해 심층 학습용 훈련 데이터 구축 비용을 최소화할 수 있도록 해준다.< 그림 1. 연구팀에서 개발한 메타 질의 네트워크 방법론의 동작 개념도. 추가적인 신경망을 도입하여 메타학습을 통해 순도-정보도의 최적 균형을 추정할 수 있도록 하였다. 이에 따라, 비정제 데이터의 분포 外 데이터를 정제하고 중요한 목표 데이터를 선택함으로써 훈련 데이터를 준비하는 비용을 최소화하는 효과를 얻게 된다. 주어진 같은 비용 내에서 훈련 데이터를 구축하였을 때 가장 높은 예측 정확도를 얻을 수 있음을 다양한 실험을 통해 입증하였다. >우리 대학 데이터사이언스대학원에 재학 중인 박동민 박사과정 학생이 제1 저자, 신유주 박사과정, 이영준 박사과정 학생이 제2, 제4 저자로 각각 참여한 이번 연구는 최고권위 국제학술대회 `신경정보처리시스템학회(NeurIPS) 2022'에서 올 12월 발표될 예정이다. (논문명 : Meta-Query-Net: Resolving Purity-Informativeness Dilemma in Open-set Active Learning) 데이터의 정제 및 선택을 동시에 고려하기 위해서 구체적으로 가장 분포 외 데이터가 아닐 것 같은 데이터 중에서 가장 심층 학습 성능 향상에 도움이 될 데이터를 선택한다. 즉, 주어진 훈련 데이터 구축 비용 내에서 최고의 효과를 내도록 데이터의 순도(purity) 지표와 정보도(informativeness) 지표의 최적 균형(trade-off)을 찾는다. 순도와 정보도는 일반적으로 서로 상충하므로 최적 균형을 찾는 것이 간단하지 않다. 이 교수팀은 이러한 최적 균형이 정제 전 데이터의 분포 외 데이터 비율과 현재 심층신경망 훈련 정도에 따라 달라진다는 점을 발견했다.이 교수팀은 이러한 최적 균형을 찾아내기 위해 추가적인 작은 신경망 모델을 도입했다. 연구팀은 추가된 모델을 훈련하기 위해 능동 학습에서 여러 단계에 걸쳐 데이터를 선별하는 과정을 활용했다. 즉, 새롭게 선택돼 레이블링 된 데이터를 순도-정보도 최적 균형을 찾기 위한 훈련 데이터로 활용했고, 레이블이 추가될 때마다 최적 균형을 갱신했다. 이러한 방법은 목표 심층신경망의 성능 향상을 위해 추가적인 상위 레벨의 신경망을 사용하였다는 점에서 메타학습(meta-learning)의 일종이라 볼 수 있다. 연구팀은 이 메타학습 방법론을 `메타 질의 네트워크'라고 이름 붙이고 이미지 분류 문제에 대해 다양한 데이터와 광범위한 분포 외 데이터 비율에 걸쳐 방법론을 검증했다. 그 결과, 기존 최신 방법론과 비교했을 때 최대 20% 향상된 최종 예측 정확도를 향상했고, 모든 범위의 분포 외 데이터 비율에서 일관되게 최고 성능을 보였다. 또한, `메타 질의 네트워크'의 최적 균형 분석을 통해, 분포 외 데이터의 비율이 낮고 현재 심층신경망의 성능이 높을수록 정보도에 높은 가중치를 둬야 함을 연구팀은 밝혀냈다. 제1 저자인 박동민 박사과정 학생은 "이번 기술은 실세계 능동 학습에서의 순도-정보도 딜레마를 발견하고 해결한 획기적인 방법ˮ 이라면서 "다양한 데이터 분포 상황에서의 강건성이 검증됐기 때문에, 실생활의 기계 학습 문제에 폭넓게 적용될 수 있어 전반적인 심층 학습의 훈련 데이터 준비 비용 절감에 기여할 것ˮ 이라고 밝혔다. 연구팀을 지도한 이재길 교수도 "이 기술이 텐서플로우(TensorFlow) 혹은 파이토치(PyTorch)와 같은 기존의 심층 학습 라이브러리에 추가되면 기계 학습 및 심층 학습 학계에 큰 파급효과를 낼 수 있을 것이다ˮ고 말했다. 한편, 이 기술은 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 SW컴퓨팅산업원천기술개발사업 SW스타랩 과제로 개발한 연구성과 결과물(2020-0-00862, DB4DL: 딥러닝 지원 고사용성 및 고성능 분산 인메모리 DBMS 개발)이다.
- 총동문회 관리자
- 2023-12-31