-AI, 청각과 시각에서 사람 뛰어넘어
-정서적 유대 나누는 AI개발이 목표

이수영 KAIST 명예교수. (사진=전형준 한국과학기술원 포토그래퍼)

[데일리비즈온 이은광·이재경 기자] 국내에서 인공지능(AI)에 대한 전문가를 꼽을 때, 카이스트의 이수영 명예교수는 빼놓을 수 없는 이름 중 하나다.

수십 년간 인공지능의 발전을 주도하는 최선봉에 섰던 그. 그는 어느덧 인공지능이 보고 듣는 능력에 있어서는 사람을 능가했다고 말한다. 영화에서 종종 등장하던 인공지능을 볼 날이 생각보다 얼마 남지 않았다는 것이다.

그렇다면 이수영 교수는 이제 AI의 윤리에 대해 고민해보라고 말한다. 사람을 능가하는 로봇을 단지 기계로만 볼 수는 없다는 것이 그 이유였다.

이에 우리는 생활 속에서의 AI, 그리고  직업 및 노후 등 보다 실질적인 문제에 대해 궁금한 점을 직접 물어보기로 했다. 누구보다도 비전문가가 알기쉽도록 친절하게 설명해주었던 이수영 교수와의 인터뷰. 4일 카이스트 내 그의 연구실에서 자세히 들을 수 있었다. 아래는 인터뷰 전문.

반갑습니다. AI를 연구하신지 오래되셨죠?

그런 편이죠. 박사학위는 다른 것을 전공했지만. 여기(카이스트)에서 교수로 임용되고 나니 그때부터 인공지능이 눈에 들어오게 되더라고요. 그게 1980년대였어요. 사실 그때까지만 해도 AI에 관심을 갖고 있는 사람들이 꽤 됐어요.

제가 그렇게 특별했던 것도 아니었던 셈이죠. 80년대 중반 학회를 열면 2000명 가까이 모였던 기억이 나거든요.

그런데 90년대 들어서 관심이 푹 식었던 것 같아요. 학회 열면 예전엔 2000명 오던 것이 그 때는 한 700명 왔었고요. 이유가 무엇일까요? 알고 보니 그 2000명이 응용분야로 옮겨간 것이더라고요. 로봇이라든지, 영상분야라든지.

2000년대 중반까지는 사실 그렇게 지나갔어요. 그런데 어느 순간 갑자기 알파고덕분에 갑자기 대중들에게도 알려지게 된 것이죠. 작년 학회할 때는 8000, 9000명이 왔어요. 인터넷으로 예약을 받았는데 12분만에 매진이 되었죠.

그런 식으로 보면 붐인 것만은 틀림없으나, 나중에는 이것이 거품이 아니지 않을까 하는 걱정도 있어요.

90년대에도 그런 과정을 거쳤으니까요

그런 질문도 많이 받아요. 업계에서도 90년대 들어 한풀 꺾였는데 언젠가는 또 그렇지 않을까 하는 걱정들이 많죠. 그런데 저는 이 분위기로 계속 갈 것 같아요. 왜냐면 지금은 기업이 달라붙었거든요. 인력이나 자본 측면에서 기업이 학교보다 훨씬 낫죠. 그리고 지금은 기업에서 만드는 AI가 성능도 잘 나오고요.

2008년에 IoT 서비스의 일부를 데모로 만들었거든요. 그런데 몇 년 안 지나서 시리(siri)가 나왔어요. 기능은 2008년 우리 버전하고 비슷하지만 저희 것은 지금 실험실에서 썩고 있잖아요. 얘네 것은 정말로 세상을 바꾸고 있죠.

그 차이는 무엇이냐? 음성 인식의 성능이었어요. 실험실에서 제 학생이 음성인식하면 잘 되는데, 딴 사람이 와서 하면 안 됐거든요. 근데 시리 쓰면 누가 와서 말해도 되잖아요? 사실 핵심 기술은 30년 된 기술이에요.

한국어하고 영어하고 어느 쪽이 더 인식하기 쉽나요?

한글이 영어보다 좀 더 어려워요. 문장 구조 때문인데요, 조사나 동사인식도 그렇고, 존대말이냐 아니냐에 따라서도 어렵죠. 띄어쓰기에 있어서도 영어는 다 띄어 쓰잖아요. 근데 한국말은 띄어쓰기는 있지만 조사가 항상 붙어서 나오기 때문에. 예를 들면 ‘우리가’를 이해시킬 때 우리랑 가를 따로 이해시켜야 해요 일단. 근데 우리 뒤에 ‘은’ ‘는’ ‘이’ ‘가’ 등등이 많이 붙죠.

그래서 한국어가 더 어렵긴 한데, 그래도 현재 딥러닝 알고리즘이 데이터 기반이라. 결국 학습시키면 되는 문제입니다. 어린애가 태어나서 말을 할 때까지 2년이 걸리거든요. 대개 비슷해요 한국 애나 서양 애나.

결국 2년 동안 부모가 말하는 소리를 듣는 것이 학습데이터입니다. 2년의 학습데이터, 계산능력이 필요하다고 볼 때 현재 딥러닝의 성공은 이 학습데이터와 계산능력의 발전이라고도 볼 수 있습니다.

1998년부터 10년간 뇌신경정보학이라는 사업을 당시의 과기부로부터 위탁받아 수행했었어요. 그 과제가 결국은 사람의 뇌가 어떻게 정보를 받아들여 처리하는지를 이해하고, 그걸 이용해 인공지능을 구현하자는 두 가지 목표였죠.

전국의 교수 25명을 모셔서 10년을 거기에만 투자한 사업이었습니다. 3년에 박사 1명을 배출한다고 계산했을 때, 약 100명의 전문가를 배출할 수 있었죠.

근데 그 이후로 연구비가 좀 줄었어요. 10년 전에도 지금처럼 했다면 참 좋았을 텐데. 지금의 붐을 생각했을 때. 그래서 최근 8년이 좀 어려웠어요. 그래서 그 때 배출된 100명의 박사도 언어, 영상, 음성, 로봇 등 각자의 분야로 흩어져 있다가. 알파고로 이슈가 되니까 다들 다시 모였죠.

이수영 명예교수. (사진=전형준 한국과학기술원 포토그래퍼)

알파고가 계기가 되었네요.

대부분이 바둑을 지능을 요하는 게임이라고 생각해요. 그래서 ‘알파고가 머리가 인간보다 더 좋은거구나’라고 생각하더라고요. 근데 꼭 그런 건 아니에요.

19X19의 선에 돌을 놓는 게임이니 결국 경우의 수 입니다. 데이터를 분석해서 최선의 수를 두면 이기는 게임이에요. 근데 이게 정말 어렵죠. 361!을 컴퓨터에서 계산하라고 하면 보통 계산을 못하거든요. 

100!만 해도 10의 몇백 승까지 올라간다고요. 그걸 거기서 더 올리면 컴퓨터가 못 할 수준까지 가는 거구요. 하물며 사람이 이걸 할 수가 없죠. 그런데 이 것을 기억하는 건 또 다른 문제죠. 그래서 계산능력과 메모리의 문제가 되는 겁니다.

당시 이세돌하고 바둑을 둘 때 알파고는 컴퓨터 1000개 이상을 동원했습니다. 그럼 일단 계산량하고 기억량이 어마어마하게 상승하겠죠. 근데 이것을 지능이라고 볼 수 있겠습니까. 그렇게만 볼 수는 없거든요.

근데 그렇게 해도 361!을 계산하진 못해요. 그래도 중간정도는 하죠. 최소 다섯 수 열 수 앞을 바라볼 수 있다는 이야기죠. 그러면 이기는 데 무리는 없을 겁니다. 크게는 몇십 수 이상을 내다보니 사람이 이길 수가 없었던 겁니다.

근데 그 이상부터는 판단력이 요구되겠죠. 그건 지능의 일부라고 볼 수 있어요. 여기에다가 계산능력과 메모리를 합하면. 결국 약간의 인간의 지능과 컴퓨터. 이 두 개의 결합이면 사실 당연히 사람은 이겨야하지 않겠어요?

그 전에도 이런 생각을 한 사람은 많았어요. 근데 못했어요. 아니 안했죠. 다른 일 하기 바쁜데요. 이게 될지 안 될지도 모르는데요. 사실 데이터가 어느 정도 쌓여야 실제로 해볼 수 있어요. 돈도 들고 확신도 없고 그래서 못했어요.

근데 이걸 실제로 실천하는게 뛰어난 사람인거죠. 그것을 구글이 한 거고. 구글 딥마인드의 업적은 결국 일반 사람들에게 잘 이해시킬 수 있는 토픽을 선정해서, 이걸 실행한 다음, 실천적으로 증명한 데 있다고 봅니다.

그럼 현재 어느정도 능력까지 올라온 겁니까?

사람의 기능 중에서는 보고 듣는 걸 잘한다고 볼 수 있어요. 두뇌의 기능이라는 것이 애초에 오각으로부터 정보를 받은 다음 어떻게든 생각을 해서 그 다음에 행동으로 옮기는 것이죠. 그 오각 중에서는 시각과 청각. 이거 두 개는 사람보다 낫다고도 볼 수 있습니다.

다른 세 개는 사실 또 그렇게 중요하지 않아요. 정보의 전달량이 작기 때문입니다. 냄새는 1초에 몇 번 맡을 수 있어요? 1초에 한 번 정도나 맡을까요? 촉각도 마찬가지에요. 얼마나 빨리 다른 질감을 얼마나 많이 구별할 수 있겠느냐고요.

결국 이 것들은 센서를 어떻게 잘 만드느냐 등에 불과합니다. 백만 개 중 하나의 특이 분자를 감별해 내는 정도로 충분하죠. 무슨 분자냐 무슨 냄새냐 알기만 하면 그 다음부터는 할 일이 그렇게 많지 않다고 생각해요.

반면 시각과 청각은 무수히 많은 정보를 접해요. 청각보다 시각이 더 합니다. 시각은 영화의 정지화면의 경우 1초에 30프레임. 보통 그렇게 만들어요. 컴퓨터는 1초에 100장정도 보여주고요. 요새는 정지영상 하나가 보통 가로 세로 1000x1000 화소 이상씩 들어옵니다.

이게 데이터가 되어서 지식을 바꿔야 해요. 1초에 100억 개가 들어오는 정보를 파악한 다음 지식으로 인식하고 행동으로 옮기려면. 그것을 위한 기술이 필요했던 겁니다. 그래야 지능의 발전이 있죠. 그것을 못하면 치매가 되는 겁니다. 

근데 행동으로 옮기는 건 다른 문제죠. 의미를 이해하고 지식으로 축적하고 상황을 이해하는 것이 선행되어야 합니다. 그래서 일차적인 과정인 상황이해가 가장 중요합니다. 그게 되면 행동으로도 쉽게 연결되죠. 근데 이게 어려워요. 

상황이해를 하려면 우리 셋이 이야기하는 상황을 인공지능이 보고 설명을 할 수 있어야 합니다. 물론 잘 될 때가 있지만 항상은 아니에요. 어떤 때는 사람이 감정을 잘 안 드러내거나, 거짓말을 하는 상황도 많아요. 그런 것까지 고려해서 상황인식이 되어야하죠.

사람은 여태까지 그것을 잘 해왔기 때문에 살아남은 거예요. 그 상황이해가 안되면 인간 사회에서도 ‘아 저 사람 이상하네’하면서 소외되기도 하잖아요. 

결국은 사람과 비슷한 지능을 구현하고 싶은 것이고. 사람을 도와서 같이 잘 살 도우미를 만들고 싶어요. 

구체적으로 말씀해주세요

자율운행차도 마찬가지예요, 의료 영상도 그렇고요. 의사의 노동시간과 강도를 줄여줄 수 있으니까요. 단위 시간에 더 많은 일을 할 수 있게 하는 것이 도우미의 기본적인 목표인데. 

그럼 도우미가 어떤 성격을 가져야 할 것이냐? 내가 누구랑 같이 일을 해야 하는데 누굴 뽑아야 하는가. 그럼 똑똑한 사람을 뽑아야 하겠죠. 그래서 인공지능은 똑똑해야 해요. 근데 누가 똑똑하기는 한데 성격이 개판이고 호흡이 잘 안맞는다. 그럼 소용이 없어요. 그래서 똑똑하면서도 나랑 호흡이 잘 맞아야 해요.

그런데 현재까지는 똑똑한 지능을 만드는 데 집중했죠. 보고 듣는 것은 지금 사람보다 낫지만, 생각하고 판단을 내리는 데에는 아직 한참 떨어져요.

그래서 그 다음단계는 사람과 협력을 잘 하는 인공지능까지 발전해야 한다. 그것이 궁극적인 목표입니다. 그럼 또 어떻게 공존해야하나?

공존이라는 것이, 어쩔 수 없이 같이 살아야 하는 것이 아니라. 서로 돕고 사는 인공지능이 되어야 해요. 그럼 왜 현재는 안 되느냐?

이수영 교수. (사진=전형준 한국과학기술원 포토그래퍼)

기가지니나 이런 것들 보면 사람들이 쓰는 게 뻔해요. 음악틀어줘 채널돌려줘 이 정도잖아요. 근데 이것이 사람의 노력의 반을 감당하나요? 아니죠. 더 많은 일을 해야 해요. 

내가 말을 안 해도 얘가 알아서 채널 돌려주고, 운전도 해 주고. 사람이 할 일을 실질적으로 해줬으면 좋겠다. 근데 지 멋대로 하는 게 아니라 내가 원하는 일을 해야 해요. 그래서 AI가 사람의 마음을 이해해야 하는 것이 중요합니다.

그래서 사람의 마음을 이해하면서 원하는 일을 스스로 찾아서 해 주는. 사람 같은 AI를 만들어야 하지 않겠어요?

패신저스라는 영화가 생각나네요.

실제로도 그래요. 영화인들 실제로도 고민 많이 하면서 영화 만들거든요. 저도 학생들에게 늘 얘기해요. 공상과학영화를 봐라. 그것이 네가 할 일이다 하면서.

스타워즈도 마찬가지였죠. 결국 상상이 실제가 되더라고요.

맞아요. 스마트폰도 그렇죠. 사실은 이전에 다 생각했던 건데. Her라는 영화도 있었어요. 스마트폰 상의 앱인데 이게 여자 얼굴도 나오고 사람과 연애까지 할 수 있죠. 사람의 마음을 이해해야 한다고 했죠? 이것의 궁극이 결국 연애라는 거죠.

실체는 없을 수도 있어요. 꼭 로봇 모양일 필요는 없잖아요. 집에 있는 TV가 AI의 역할을 하는 거고, 차에서는 차가 하는 거고, 사무실에서는 컴퓨터가 하는 거고.

근데 이게 AI가 동료가 되려면, 사람에게 맞는 AI가 있어야 합니다. 그게 개인화에요. 사람마다 달라야 해요. 개나 고양이나 애착에 갖고 키우시는 게 많은데. 그 분들이 힘든 게 출장가거나 하면 관리가 힘들어요. 그럼에도 불구하고 개들을 키우는 것은 관계 형성이에요.

개가 나한테 하는 거랑 와이프한테 하는 거랑 똑같다. 옆집 개랑 우리 개랑 나한테 하는 게 똑같다. 그럼 키울 필요가 없어요. 우리는 개인화된 유대 관계를 원하는 거예요.

그래서 이러한 AI가 필요하다. 자율운전차조차도 내가 탔을 때 운전 스타일하고 내 와이프가 탔을 때의 운전 스타일이 달라야 한다는 것이에요. (계속)

저작권자 © 데일리비즈온 무단전재 및 재배포 금지