동문소식

모교 소식

[연구]인과관계 추정 정확도 높인 새로운 방법론 개발
  • 총동문회 관리자
  • 2024-05-31
  • 조회수  79

(왼쪽부터) 김재경 수리과학과 교수, 박세호 학생, 하석민 학생

< (왼쪽부터) 김재경 수리과학과 교수, 박세호 학생, 하석민 학생 >

우리 대학 수리과학과 김재경 교수 연구팀이 수학 모델을 기반으로 시계열 데이터의 인과관계를 추정하는 새로운 방법론을 개발했다복잡한 계산 과정을 없애 기존보다 빠른 속도로 추론이 가능하면서도정확도는 획기적으로 높였다.

매 순간 다양한 데이터가 기록되고 있다그중 시간의 흐름을 기준으로 기록된 시계열 데이터는 일기 예보와 경제 분야뿐만 아니라 의학 분야에서도 가치 있게 쓰인다입원 환자의 심전도 측정을 통해 심장 발작의 직접적인 요인을 찾는 것과 같이 인과관계를 추정하는 것이 대표적이다최근에는 스마트 워치 등 웨어러블 기기를 통해 일상에서 건강 데이터를 쉽게 수집할 수 있게 되면서의학 분야에서 시계열 데이터 분석의 중요성이 더 커지고 있다.

시계열 데이터에서 인과관계를 추정하는 대표적인 방법으로는 2003년 노벨 경제학상을 수상한 클라이브 그레인저 미국 샌디에이고캘리포니아대(UC샌디에이고) 교수가 제시한 그레인저 인과관계 검정(Granger causality test)이 있다이는 미래 경제지표 예측질병 요인분석지구온난화의 원인 등 수많은 분야에 걸쳐 응용됐다그레인저 인과관계 검정을 개선한 정보 이론 기반의 다양한 인과관계 추정 방법이 개발됐지만일련의 방법들은 시계열 데이터가 비슷한 주기로 변화하는 동시성을 가지기만 하면인과관계가 있다고 잘못 예측하는 경우가 많았다또한직접적인 인과관계와 간접적인 인과관계를 구별하지 못한다는 한계도 있었다.

그림 1. 시계열 데이터의 인과관계 추론. 서로 다른 대상의 시계열 데이터가 주어졌을 때, 이들 사이에 인과관계가 있는지 추정하는 것은 사회/자연과학 전 분야에 걸쳐 오랫동안 연구가 진행된 중요한 문제이다.

< 그림 1. 시계열 데이터의 인과관계 추론. 서로 다른 대상의 시계열 데이터가 주어졌을 때, 이들 사이에 인과관계가 있는지 추정하는 것은 사회/자연과학 전 분야에 걸쳐 오랫동안 연구가 진행된 중요한 문제이다. >

이러한 한계를 극복하기 위해 최근 수리 모델을 기반으로 하는 방법론들이 등장했다수리 모델로 주어진 시계열 데이터를 잘 맞출 수 있는지 확인하는 방법을 통해 인과관계를 예측한다수리 모델이 정확하기만 하면 기존 그레인저 인과관계 검정의 한계인 동시성과 간접적인 영향을 인과관계와 혼동하지 않는다는 장점이 있다그러나 정확한 수리 모델을 알기 힘들고현재까지 제시된 수리 모델 기반 방법론들은 복잡한 계산이 필요해 추정 시간이 많이 걸린다는 단점이 있다.

이러한 상황에서 연구팀은 기존 방법론들의 한계를 모두 해결한 새로운 방법론 GOBI(General ODE-Based Inference)를 개발했다우선연구팀은 시계열 데이터가 일반적인 수학 모델로 표현될 수 있는지 확인하는 수학 이론을 만들었다그리고 이 이론을 바탕으로 정확한 수리 모델이나 복잡한 계산 없이도 시계열 데이터로부터 인과관계를 추정하는 방법론을 개발했다.

[그림 2] 기존 개발된 방법론과 새로 제시된 방법론의 인과관계 추정 결과 비교. (a) 서로 무관한 먹이 포식자 시스템(P와 D)과 세포 내 단백질 상호작용 시스템(과 TetR)을 합친 시스템의 시계열 데이터이다. GC, CCM 등 같은 기존 방법론들은 시계열 데이터에 동시성이 있으면 거의 모든 대상 사이에 인과관계가 있다고 잘못 추정한다. 그러나 GOBI는 실제로 있는 인과관계만 정확히 추정한다. (b) 홍콩에서의 심혈관질환 환자수와 대기 중 오염물질의 농도를 나타낸 시계열 데이터이다. 다른 방법론들과는 다르게, GOBI는 사용하는 시계열 데이터의 길이(2년 또는 3년)와 무관하게 오직 이산화질소(NO2)와 호흡 가능한 부유 미립자(Rspar)만이 심혈관질환에 영향을 준다고 바르게 추정한다.

< [그림 2] 기존 개발된 방법론과 새로 제시된 방법론의 인과관계 추정 결과 비교. (a) 서로 무관한 먹이 포식자 시스템(P와 D)과 세포 내 단백질 상호작용 시스템(과 TetR)을 합친 시스템의 시계열 데이터이다. GC, CCM 등 같은 기존 방법론들은 시계열 데이터에 동시성이 있으면 거의 모든 대상 사이에 인과관계가 있다고 잘못 추정한다. 그러나 GOBI는 실제로 있는 인과관계만 정확히 추정한다. (b) 홍콩에서의 심혈관질환 환자수와 대기 중 오염물질의 농도를 나타낸 시계열 데이터이다. 다른 방법론들과는 다르게, GOBI는 사용하는 시계열 데이터의 길이(2년 또는 3년)와 무관하게 오직 이산화질소(NO2)와 호흡 가능한 부유 미립자(Rspar)만이 심혈관질환에 영향을 준다고 바르게 추정한다. >

개발한 방법론을 인과관계 분석에 적용해 본 결과 세포 내 분자들의 상호작용생태계 네트워크기상 시스템 등 다양한 분야의 데이터에서 기존 방법론에 비해 월등한 성능을 보여줬다특히동시성 및 간접적인 영향을 가지는 시계열 데이터에서도 인과관계를 성공적으로 추론했다연구진은 GOBI를 통해서 여러 오염 물질 중 이산화질소와 호흡기로 유입되는 부유 미립자(직경 10㎛ 이하의 입자)가 심혈관계 질환에 영향을 미친다는 것을 확인할 수 있었다.

김재경 교수는 수학과 통계를 결합하여 정확하면서도 다양한 시스템에 유연하게 적용할 수 있는 새로운 인과관계 추정 방법론을 개발했다며 사회 및 자연과학 분야에 걸쳐 두루 사용되는 인과관계 추정 연구에 새로운 패러다임을 제시할 것으로 예상된다고 말했다.

연구결과는 7월 24 국제학술지 네이처 커뮤니케이션즈(Nature Communications, IF 17.694)’ 온라인판에 실렸으며, 우리 대학 박세호 학사과정(1저자)과 하석민 학사과정(2저자)이 참여했다.