- 구글 딥마인드, 인간 두뇌 비밀 밝혀낼 강화학습 인공지능 연구 결과 발표
- 인간 뇌의 ‘보상 체계’, 확률분포 활용한 강화 학습 인공지능과 유사성 확인
- 연구진, “우리 뇌 해석하는 새로운 관점 제시 가능”

지난 2016년, 구글 딥마인드가 개발한 알파고와 대국을 마친 이세돌의 모습
지난 2016년, 구글 딥마인드가 개발한 알파고와 대국을 마친 이세돌 9단.

[데일리비즈온 임기현 기자] 이세돌과 세기의 승부를 펼쳤던 알파고(Alpha Go) 딥마인드(Deep Mind)가 인공지능(AI)을 활용해 인간 뇌의 ‘보상 체계’를 예측할 수 있을 것이라는 전망을 들고 나왔다. 현지시각으로 지난 15일 국제학술지 네이처(Nature)지에 실린 딥마인드의 연구결과를 바탕으로 인공지능과 뇌과학의 결합이 어떤 식으로이뤄질지 학계가 주목하고 있다.

딥마인드의 알파고가 바둑을 통달하기 위해 이용했던 주요 방법은 인공지능 학습 방법 중에서도 강화 학습에 해당한다. 이 학습을 이해하는 데 있어 가장 중요한 개념은 ‘보상’이다. 이 개념을 알기 위해선 인공지능의 개념을 알아야 한다. 어떠한 ‘상황’이 주어졌을 때 상황에 대한 ‘행동’을 결정하고 그 행동의 결과로서 ‘보상’과 새로운 ‘상황’을 받게 되는 식이다. 받을 수 있는 보상의 값을 최대한 키울 수 있는 상황을 예측하고 판단함으로써 인공지능의 ‘행동’이 결정되는 셈이다. 알파고가 두었던한 수 한 수도 이러한 과정을 거쳐 결정된 행동이라고 할 수 있다.

딥마인드가 네이처지에 실은 논문에서 주목하는 바 역시 이것이다. 강화 학습을 통해 최선의 결과를 도출해내는 인공지능의 판단 과정에서 인간의 의사 결정과정의 단서를 찾은 것이다. 사실 인공지능의 정보 처리 방식과 인간 뇌의 정보 처리 방식이 갖는 유사성에 대한 호기심은 지속 대두됐다. 따라서 인공지능의 보상을 통한 강화 학습 방법과 유사하게, 인간의 뇌도 행복감을 느끼게 하는 화학물질인 ‘도파민’을 ‘보상’으로서 활용한다는 이론이 확립되기도 했다.

다만 기존 인공지능 연구에서 인간 의사결정과정의 구조화는 보상의 ‘평균치’를 계산해 수행되었다는 한계를 가지고 있다. 많은 신경과학 연구자들이 지적하는 지점이 이 부분이다. 현실에서 인간의 실질적인 의사결정과정에서 여러 가지 행동들의 결과가 가져오는 보상들의 ‘평균’은 그리 중요하지 않기 때문이다.

딥마인드의 연구를 진행했던 윌 다브니(Will Dabney)도 “지난 30년과 인공지능과 신경과학 분야의 강화 학습 모델들은 보상의 평균값을 예측하는 학습 과정에 전적으로 초점을 맞췄지만 이는 실제 삶을 반영하지 않는다”며 “예를 들어 사람들이 복권을 살 때 엄청난 당첨금을 얻는 상황과 아무것도 얻지 못하는 상황을 예상하지 그 평균치를 얻을 생각은 하지 않는다”고 밝혔다.

데미스 허사비스 구글 딥마인드 최고경영자(CEO)의 모습
데미스 허사비스 구글 딥마인드 최고경영자(CEO)의 모습

그래서 딥마인드는 보상의 ‘확률 분포(Probability Distribution)’에 초점을 맞췄다. 기존의 평균으로써 간단하게 보상을 예측하는 방식에서, 다양한 보상의확률 분포를 따져 최선의 행동을 찾는 방식으로의 강화 학습 전략을 개선한 것이다. 딥마인드는 확률분포를 통한 보상 예측이 인간의 뇌에서도 동일하게 작용하는지를 알아보기 위해 하버드 대학 연구진과 함께 연구를 수행했다. 연구진은 쥐의 뇌에 있는 여러 도파민 뉴런들이 하나의 상황에 어떻게 서로 다른 반응을 하는지를 살폈다.

연구 결과에 따르면 각각의 도파민 뉴런은 같은 상황이 주어져도 보상에 대한 예측은 모두 달리하는 것으로 드러났다. 어떤 뉴런은 ‘매우 낙관적’인 결과(많은도파민)를 예측했고 어떤 뉴런은 실제 보상보다 낮은 결과치(적은 도파민)를 예측했다. 연구진은 이와 같은 연구 결과를 바탕으로 뇌가 실제 학습 과정에서 보상의 ‘확률 분포적’ 판단을 거친다는 설명을 내놓았다.

인공지능 연구 기업인 딥마인드가 인간 뇌의 보상 체계를 연구했다는 사실이 인공지능 발전에 시사하는 바는 크다. 인간의 의사결정 과정과 인공지능의의사 판단 과정의 유사성을 더욱 높일 수 있을 것으로 기대되기 때문이다. 또 인공지능의 의사 결정 판단 과정을 분석해 베일에 둘러싸인 ‘인간 두뇌 사고 과정’을 밝힐 수 있는 단서도 찾을 수 있을 전망이다.

이에 대해 연구에 참여했던 맷 보트비닉(Matt Botvinick)은 연구를 통해 드러난 인공지능과 뇌의 보상 체계의 유사성을 언급하며 “이는 실생활에서도 확장 적용할 수있는 기술”이라며 “기존 기술적 해법에도 쉽게 적용할 수 있을 것”이라 밝혔다. 이어 뇌의 추가적인 ‘해독’이 가능해지는 것을 언급하며 “우리의 뇌에서 일어나는 일을 해석하는 대한 새로운 관점을 제공할 수 있을 것”이라고 기대감을 드러냈다.

 

저작권자 © 데일리비즈온 무단전재 및 재배포 금지