인공지능(AI) 스타트업 클레온 독일 베를린 'IFA 2022'에서 '카멜로(KAMELO)' 발표

[DAILY BIZON 박혜진 기자]

사진 클론 홈페이지
사진 클론 홈페이지

한 장의 사진과 30초짜리 음성만 있으면 수분내로 나와 똑같은 가상 인간 클론을 만들어낼 수 있다. 나와 음성도 똑같고 외형이나 몸짓, 얼굴 표정까지 똑같은 내가 모니터안에 등장하는 것이다. 이렇게 만들어진 클론은 메타버스 세계에서 내 아바타로 활동 할 수 있다.

인공지능(AI) 스타트업 클레온은 독일 베를린에서 열린 유럽 최대 가전 전시회 'IFA 2022'에서 이 같은 기능을 가진 '카멜로'를 선보였다. 

카멜로는 딥 휴먼 기술을 기반으로 한 영상공유 소셜 미디어 플랫폼이다. 우리에게 익숙한 딥페이크가 얼굴을 합성하는 개념이라면, 딥 휴먼은 얼굴뿐 아니라 체형과 음성 등 외형을 완벽하게 바꿀 수 있는 솔루션이다.

클론 서비스에는 얼굴과 음성 합성 기술, 입 모양 생성 기술 등이 적용돼 문자를 입력하면 실제 사람이 발음하는 모습으로 나타나며, 성별, 언어, 음역, 배경 등을 자유롭게 선택할 수 있고, 체형 생성 기술을 통해 몸짓 표현도 가능하다고 한다.

클레온은 현재 국내 여러 언론사에 가상 기자도 제공하고 있다. 계속해서 같은 내용을 전달해야 할 상황인 경우 가상 기자에 원고를 입력해 특정 뉴스를 반복해서 전달 할 수 있도록 하는 것이다. 

이외에도 클레온은 AI 영상 자동 더빙 솔루션 ‘클링'도 공개하였다. 클링은 영상 속 인물의 목소리를 그대로 활용하여 대사를 다국어로 더빙할 수 있고, 입모양을 대사에 맞춰 움직이게 동기화하는 더빙 솔루션이다.

기존에는 영상 하나를 더빙하기 위해서는 각 언어마다 성우를 섭외해야 했고, 한 시간 반 분량의 영화 한 편 기준으로 더빙을 하는 데 30일의 시간과 최소 3천~1억 원 정도의 비용이 소요됐다. 그뿐만 아니라 원본 인물과 성우의 목소리와 입모양 싱크가 맞지 않는는 어색함의 한계가 존재하여, 자막 콘텐츠의 소비가 낮은 유럽에는 고퀄리티 K-콘텐츠임에도 해외로 수출하지 못하는 경우가 다반사였다. 그러나 클링 솔루션을 활용하면 한 시간 반 분량의 영상 기준으로 3일과 5백만 원 정도의 비용이면 다국어 더빙 영상을 생성할 수 있다고 한다.

김성곤 클레온 부대표는 “가상인간은 5년 뒤 인간과 유사한 수준에 도달할 것”이라고 단언했다. 그는 “초거대 AI의 발전 속도는 우리의 예상보다 빠르게 이뤄지고 있다”며 “인간과 유사한 수준은 5년 뒤, 진입장벽을 조금 낮춘다면 이르면 3년 뒤에는 일반적인 서비스에서 소비자와 소통을 할 수 있을 것으로 본다”고 예측했다.

저작권자 © 데일리비즈온 무단전재 및 재배포 금지