연구개발
-
[연구]차세대 새로운 패러다임 동영상 인식기술 개발
< (왼쪽부터) 전기및전자공학부 김창익 교수, 박진영 석박사통합과정, 김희선 석박사통합과정, 고강욱 박사과정 >챗GPT와 같은 거대 언어 모델의 근간이 되는 트랜스포머로 구축된 기존 비디오 모델보다 8배 낮은 연산량과 4배 낮은 메모리 사용량으로도 높은 정확도를 기록했으며, 추론 속도 또한 기존 트랜스포머 기반 모델 대비 4배의 매우 빠른 속도를 달성한 동영상 인식기술이 우리 연구진에 의해 개발됐다. 우리 대학 전기및전자공학부 김창익 교수 연구팀이 초고효율 동영상 인식 모델 ‘비디오맘바(VideoMamba)’를 개발했다고 23일 밝혔다. 비디오맘바는 기존 트랜스포머 기반 모델들이 가지고 있는 높은 계산 복잡성을 해결하기 위해 설계된 새로운 동영상 인식 모델이다. 기존의 트랜스포머 기반 모델들은 셀프-어텐션(self-attention)이라는 메커니즘에 의존해 계산 복잡도가 제곱으로 증가하는 문제를 가지고 있었다.< 그림 1. 비디오맘바의 트랜스포머 기반 비디오 인식 모델 대비 낮은 메모리 사용량과 빠른 추론속도 >김창익 교수 연구팀의 비디오맘바는 선택적 상태 공간 모델(Selective State Space Model, Selective SSM)* 메커니즘을 활용해 선형 복잡도**로 효율적인 처리가 가능하다. 이를 통해 비디오맘바는 동영상의 시공간적 정보를 효과적으로 포착해 긴 종속성을 가진 동영상 데이터도 효율적으로 처리할 수 있다.*선택적 상태 공간 모델(Selective SSM): 입력에 따라 동적으로 매개변수를 조정하여 시퀀스 데이터의 문맥을 더 잘 이해하는 상태 공간 모델**선형 복잡도:입력 데이터의 크기에 비례하여 계산량이 증가하는 알고리즘 복잡도 김창익 교수 연구팀은 동영상 인식 모델의 효율성을 극대화하기 위해 비디오맘바에 1차원 데이터 처리에 국한된 기존 선택적 상태 공간 메커니즘을 3차원 시공간 데이터 분석이 가능하도록 고도화한 시공간적 전방 및 후방 선택적 상태 공간 모델(spatio-temporal forward and backward SSM)을 도입했다. 이 모델은 순서가 없는 공간 정보와 순차적인 시간 정보를 효과적으로 통합해 인식 성능을 향상한다. 연구팀은 다양한 동영상 인식 벤치마크에서 비디오맘바의 성능을 검증했다. 연구팀이 개발한 비디오맘바는 영상 분석이 필요한 다양한 응용 분야에서 효율적이고 실용적인 솔루션을 제공할 수 있다. 예를 들어, 자율주행에서는 주행 영상을 분석해 도로 상황을 정확하게 파악하고, 보행자와 장애물을 실시간으로 인식해 사고를 예방할 수 있다. 의료 분야에서는 수술 영상을 분석해 환자의 상태를 실시간으로 모니터링하고 긴급 상황 발생 시 신속히 대처할 수 있다. 스포츠 분야에서는 경기 중 선수들의 움직임과 전술을 분석해 전략을 개선하고, 훈련 중 피로도나 부상 가능성을 실시간으로 감지해 예방할 수 있다.< 그림 2. 비디오맘바 내부의 시공간적 전방 및 후방 선택적 상태 공간 모델 상세 구조 >연구를 주도한 김창익 교수는 “비디오맘바의 빠른 처리 속도와 낮은 메모리 사용량, 그리고 뛰어난 성능은 우리 생활에서의 다양한 동영상 활용 분야에 큰 장점을 제공할 것이다”고 연구의 의의를 설명했다. 이번 연구에는 전기및전자공학부 박진영 석박사통합과정, 김희선 박사과정, 고강욱 박사과정이 공동 제1 저자, 김민범 박사과정이 공동 저자, 그리고 전기및전자공학부 김창익 교수가 교신 저자로 참여했다. 연구 결과는 올해 9월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 최우수 국제 학회 중 하나인 ‘European Conference on Computer Vision(ECCV) 2024’에서 발표될 예정이다. (논문명: VideoMamba: Spatio-Temporal Selective State Space Model) 한편, 이번 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행됐다. (No. 2020-0-00153, 기계학습 모델 보안 역기능 취약점 자동 탐지 및 방어 기술 개발)
- 총동문회 관리자
- 2024-10-18
-
[연구]챗GPT에 사용된 트랜스포머로 다공성 소재 예측
< (왼쪽부터) 생명화학공학과 김지한 교수, 강영훈 박사과정, 박현수 박사과정 >다공성 소재는 넓은 공극과 표면 면적을 지니고 있어, 가스 흡착, 분리, 촉매 등 다양한 에너지 및 환경 분야에서 적용된다. 다공성 소재 중 한 종류인 금속 유기 골격체(MOF)는 무한대에 가까운 경우의 수를 갖는 넓은 물질 공간(materials space) 안에 존재하기에, 인공지능을 사용해 최적의 물질을 추출하고 특성을 예측하려는 연구가 활발히 진행되고 있다. 하지만 이러한 모델들은 대부분 특정한 물성 한 종류만 학습할 수 있으며, 모든 재료 특성에 보편적으로 적용할 수 없다는 단점이 존재한다. 우리 대학 생명화학공학과 김지한 교수 연구팀이 세계 최초로 멀티모달 트랜스포머를 적용한 인공지능(AI)을 통해 다공성 소재의 다양한 물성을 예측하는 기술을 개발했다고 5일 밝혔다. 멀티모달 트랜스포머는 비디오 프레임과 오디오 트랙, 웹 이미지와 캡션, 교육용 비디오와 음성 대본과 같이 서로 다른 형태의 정보를 효과적이고 효율적으로 결합하도록 설계된 신경망 모델의 일종이다. 김지한 교수 연구팀은 챗GPT(ChatGPT)에서 사용된 모델인 트랜스포머를 다공성 소재에 도입해 모든 성능을 예측할 수 있는 멀티모달 인공 신경망을 개발했다. 멀티모달은 사진(이미지)과 설명(자연어)같이 서로 다른 형태의 데이터를 함께 학습하며, 이는 인간과 비슷하게 입체적이고 종합적인 사고를 할 수 있도록 도와준다. 연구팀이 개발한 멀티모달 트랜스포머 (MOFTransformer)는 원자 단위의 정보를 그래프로 표현하고, 결정성 단위의 정보를 3차원 그림으로 전환 후 함께 학습하는 방식으로 개발했다. 이는 다공성 소재의 물성 예측의 한계점이었던 다양한 물성에 대한 전이 학습을 극복하고 모든 물성에서 높은 성능으로 물성을 예측할 수 있게 했다.< 그림 1. 멀티모달 트랜스포머를 이용한 범용적 물성 예측 개요 >김지한 교수 연구팀은 다공성 소재를 위한 트랜스포머를 개발해 1백만 개의 다공성 소재로 사전학습을 진행했으며, 다공성 소재의 가스 흡착, 기체 확산, 전기적 특성 등의 다양한 소재의 물성을 기존의 발표된 머신러닝 모델들보다 모두 더 높은 성능으로 (최대 28% 상승) 예측하는 데 성공했고, 또한 논문으로부터 추출된 텍스트 데이터에서도 역시 높은 성능으로 예측하는 데 성공했다. 연구팀이 개발한 기술은 물질의 특성을 계산 및 예측하는 새로운 방법론을 제시했으며, 이를 통해 소재 분야에서 새로운 소재의 설계와 개발에 도움이 될 뿐만 아니라, 기존의 소재에 대한 깊은 이해를 얻을 수 있을 것으로 기대된다. 더불어, 멀티모달 트랜스포머는 다공성 소재뿐만 아니라 다른 종류의 소재에도 확장 가능한 범용적인 모델이므로, 인공지능을 통한 소재 과학의 발전에 크게 이바지할 수 있을 것이다.< 그림 2. 멀티모달 트랜스포머의 모델 구조 및 입력 데이터 개요 >생명화학공학과 강영훈, 박현수 박사과정이 공동 제1 저자로 참여한 이번 연구 결과는 국제 학술지 `네이처 머신 인텔리전스(Nature Machine Intelligence)'에 지난 3월 13일에 게재됐다. (논문명: A multi-modal pre-training transformer for universal transfer learning in metal–organic frameworks) 한편 이번 연구는 과학기술정보통신부의 지원으로 국가 소재 연구 데이터 사업단, 그리고 한국연구재단 (NRF) 중견 연구자 지원 사업의 지원을 받아 수행됐다.
- 총동문회 관리자
- 2024-03-30