[디지털데일리 이상일기자] 인공지능 기반의 영상 합성 기술에 대한 관심이 뜨거워지고 있는 가운데 국내 스타트업이 관련 기술을 기반으로 서비스에 나서 주목된다.
인공지능 스타트업 머니브레인은 7월 초 유튜브에 3가지 동영상을 올리면서 딥러닝 기반 영상합성 기술을 선보였다. 해당 영상은 문재인 대통령과 뉴스 앵커가 머니브레인을 소개하는 것으로 머니브레인의 동영상 합성 기술인 ‘버추얼 휴먼(가칭)’을 이용해 문재인 대통령과 뉴스 앵커의 기존 방송 영상에서 목소리와 입술 모양, 표정을 추출해 제작된 가공의 영상이다.
문재인 대통령의 공개된 영상을 AI 기술로 학습, 실제 문재인 대통령과 똑같은 말투, 억양 등과 같은 목소리 뿐만 아니라 영상으로 말하는 얼굴, 표정 및 움직임까지 합성할 수 있도록 개발 됐다.
인공지능 영상 합성기술은 지난 4월 미국 온라인매체 버즈피드와 조던 필레 감독이 이끄는 멍키포 프러덕션이 공동 작업한 ‘딥페이크(deepfake)’에선 오바마 전 미국 대통령의 연설 영상이 소개되며 주목받았다. 영상을 통해 오바마 전 대통령이 한 말은 모두 거짓이다. 인공지능 기술을 이용해 오바마 전 대통령을 합성한 결과물이기 때문이다.
이미지·영상을 합성해 진짜 같은 영상을 만들어주는 인공지능(AI) 기술인 ‘딥페이크’는 이렇게 사회에 한차례 경종을 울렸는데 이후 이 기술이 포르노 등에 활용되면서 문제가 되고 있다. 또 이러한 인공지능 영상합성 기술은 가짜뉴스에도 활용될 가능성이 높다는 점에서 우려도 제기된다. 가짜뉴스의 신뢰성을 영상 합성기술로 부여해줄 수 있기 때문이다.
반면 기술 발전을 놓고 봤을 때 이러한 영상 합성 기술에 손을 놓고 있을 수도 없다. 영상합성 기술은 영상 콘텐츠 분야와 비대면채널이 일반화되고 있는 금융, 유통 분야에도 다양하게 적용될 수 있다. 특히 5G 및 클라우드 등 통신과 인프라의 발전이 가속화되고 있는 상황에서 영상합성은 다양한 서비스에 접목이 가능하다.
이처럼 긍정적 전망과 부정적 전망을 모두 내포하고 있는 영상 합성기술은 중국 신화통신, 미국 워싱턴대학교 등이 보유하고 있는 상황으로 최근 한국 스타트업이 이 기술에 도전장을 내민 것이다.
머니브레인 장세영 대표는 “인공지능 뉴스앵커, 즉 아나운서 없이 24시간 뉴스를 내보낼 수 있고 최근 한류스타들이 사전에 녹화된 영상으로 팬들에게 영상통화를 해주는 서비스가 있는데 이를 실제 대화하는 것처럼 제공할 수도 있다. 쇼핑에서도 쇼호스트가 기존 상품정보와 텍스트를 통해 AI가 자동으로 영상을 만들어 주는 서비스 등이 가능하다”고 밝혔다.
물론 영상합성 기술은 위험도 내포하고 있다. 음란물이나 가짜뉴스 등 잘못된 곳에 사용될 경우다. 장 대표는 “외부에 기술을 공개하고 있지는 않으며 AI로 합성된 영상을 탐지하는 기술도 병행 개발하고 있다. 음성과 영상이 AI로 만들어진 경우 이를 탐지하는 기술로 예를 들어 사람이 들을 수 없는 비가청주파수를 영상에 심어놓을 수 있다”고 밝혔다.
특히 장 대표는 “현재 국회에서도 영상합성에 대한 기술과 문제점을 이해하고 있다. 정부와 국회에선 인공지능 영상합성 기술 중 일부를 표준화해서 AI기술 업체들이 영상을 만든이를 특정하고 구별할 수 있는 방안을 정책적으로 반영하기 위한 검토를 진행 중”이라고 설명했다.
현재 인공지능 기반의 영상 합성 분야는 기술적 장벽이 높은 것으로 알려져 있다. 앞서 설명한 것처럼 전 세계에서 관련 기술을 보유한 곳은 머니브레인을 포함해 3곳 정도다. 인공지능 기반 영상합성 기술은 자동화 알고리즘과 예측분석, 그리고 대규모 GPU서버 등이 필요하다.
머니브레인도 현재 연구목적으로 11대의 GPU서버를 자체 구축, 운영 중이며 GPU클러스터 구축을 위해 약 30억원 가량을 투자할 계획이다.
현재 머니브레인은 국내 엔터테인먼트사와 유통업체 들과 서비스 제공을 타진 중이다. 머니브레인의 기술은 기본적으로 특정 인물을 촬영해 그 결과물에 딥러닝 기술을 접목, 학습시켜 새로운 대화(다이알로그)를 생성하는데 초점이 맞춰져 있다. 이미 머니브레인은 몇몇 아나운서와 영상 합성에 대한 2차 저작권계약을 완료했다는 설명이다. 또 국내는 물론 중국 등지에서 300만 이상의 시청자를 보유하고 있는 동영상 인플루언서와도 계약했다.
현재는 정면을 바라보거나 고개를 돌리는 등의 영상은 자연스럽게 구현이 가능하다. 이정도 수준으로도 활용 분야는 무궁무진하다. 하지만 장 대표는 향후에는 감정을 자연스럽게 표현할 정도로 영상 합성 기술이 발전할 것으로 내다봤다.
장세영 대표는 “챗봇 기반 대화형 에이전트가 나온 이후 목소리에 딥러닝 기반 합성기술이 접목됐다. 올해부터 얼굴 합성기술까지 나오게 됐다. 지금은 영상의 인물이 말하는 부분에 집중돼 있는데 향후에는 감정을 표현하는 것까지 가능해질 것으로 본다. 이렇게 되면 영화 및 드라마 등 접목 분야가 더욱 넓어질 것”이라고 밝혔다.