[2020 코리아 인공지능(AI) 리포트_예술창작/콘텐츠시장] 구글, 아마존 뛰어넘는 국내 음성합성기술… 오디오북, 영상콘텐츠시장 활기
[2020 코리아 인공지능(AI) 리포트_예술창작/콘텐츠시장] 구글, 아마존 뛰어넘는 국내 음성합성기술… 오디오북, 영상콘텐츠시장 활기
  • 오석주 기자
  • 승인 2020.06.05 11:20
  • 댓글 0
이 기사를 공유합니다

 [편집자주] 지난 10여 년간 인공지능(AI)기술에 대한 담론은 무성했지만 정작 국내 인공지능 기술의 수준과 시장상황에 대한 고찰은 부족했다. 본지는 국내 AI기술의 새로운 도약을 위해서는 현 시점의 기술현황 파악이 중요하다고 봤다. 이에 국내 AI기술 선도업체들의 기술 및 시장현황을 살펴보고 한국의 AI업계가 나아갈 방향을 모색하고자 기획특집 <2020 코리아 인공지능(AI) 리포트> 편을 마련했다. 특히 단순히 업체 기술들을 나열하는 것이 아닌 시장의 흐름을 살펴보는데 초점을 뒀다. 그 첫번째 편으로 국내에서 서서히 초기시장이 열리고 있는 ‘예술창작, 콘텐츠시장’의 기술들을 들여다봤다. 

 

음성합성(TTS) 인공지능(AI)을 만나니 “진짜 사람인줄”

음성합성(TTS; Text To Speech)기술은 문자를 음성으로 변환하는 기술로 이미 오래 전부터 콜센터, 대중교통 안내방송 등에 이용되어 왔지만 어색한 목소리와 말투에 거부감이 생겨 대중적으로 널리 사용되지는 못했다. 하지만 음성합성 기술이 인공지능 기술을 만나면서 이젠 사람이 실제 말하는 것처럼 자연스럽게 표현하는 수준에까지 이르렀고, 상황에 맞춰 감정까지 바꿔가며 말하는 수준이 됐다. 또 누구나 자신의 녹음음성을 인공지능에 학습시켜 자신만의 목소리로 콘텐츠를 만들 수 있는 세상이 됐다.

국내외 TTS 서비스 운영업체는 많지만 각종 음성, 영상 콘텐츠에 사용할 목적으로 선보인 서비스는 2019년 4월, 네오사피엔스의 타입캐스트가 최초이다. 최근 국내에서 네이버가 비슷한 서비스를 내놓으면서 따라오고 있고, 해외에서는 몇몇 스타트업들이 비슷한 서비스 출시를 준비중인 것으로 알려져 있다. 기술 개발 자체로 보면 구글, 아마존 등 대표적인 글로벌 기업들이 관련 기술 개발에 많은 투자를 하고 있다.

 

-풍부한 감정, 운율 표현 가능한 TTS 원천기술 보유

-AI 성우 서비스 '타입캐스트', 1년 만에 3만 가입자 확보

네오사피엔스 김태수 대표
<네오사피엔스 김태수 대표>

네오사피엔스는 음성합성 기술에 몰두해 온 김태수 대표가 KAIST에서 박사학위를 마치고, LG전자와 퀄컴(Qualcomm)에서 오디오 머신러닝을 연구한 동료들과 함께 2017년 11월에 창업한 스타트업이다. 김 대표는 KAIST에서 ‘여러 소리가 섞여 있는 시끄러운 환경에서 깨끗한 음원을 분리하는 것’을 주제로 박사 학위를 받고, LG전자에서는 통화음질 개선, 동영상 잡음제거 등을 연구, 이어 퀄컴(Qualcomm)에서는 주변 소리를 인식하는 다양한 기술을 연구해 왔다. 창업을 결심하게 된 계기는 2016년 말 예기치 못한 사건으로 생사의 갈림길에 섰고, 그 과정에서 평소 늘 생각해 왔던 “세상을 바꾸는 일”을 실현하고자 마음먹은 것이 시작점이라고 할 수 있다.

창업을 하며 세운 목표는 전문성을 갖고 있는 음성분야에서 발전 가능성이 무궁무진한 인공지능 산업의 혁신을 일으킬 수 있는 기회를 탐색하는 것이었다. 그 중 기존에는 거의 불가능했던 사람의 감정과 운율을 섬세하게 표현할 수 있는 음성 합성 원천기술을 개발하게 됐고, 이를 적용해 지난 해 4월 AI 성우 서비스인 ‘타입캐스트’를 시장에 선보였다.

 

AI 성우서비스 ‘타입캐스트’ 화면 캡쳐 / 이미지 제공=네오사피엔스
<AI 성우서비스 ‘타입캐스트’ 화면 캡쳐 / 이미지 제공=네오사피엔스>

타입캐스트’는 텍스트만 입력하면 성별, 연령, 콘텐츠 분위기(맥락)에 따라 60여 종류의 개성이 담긴 다양한 음성을 사용할 수 있다. 다른 TTS들이 단순히 말을 하는 정도의 수준이라면 타입캐스트는 전문 연기자가 대사를 하는 수준의 감성이 담긴 음성을 제공한다. 여기에 최대한 자연스러운 음성 구현을 위해 말하는 속도, 끊는 타이밍, 연기 스타일 변경 등 구체적인 옵션도 적용할 수 있는 기술은 타입캐스트의 가장 큰 경쟁력이다.

시장에 선보인지 1년 만에 타입캐스트는 3만 가입자를 확보했다. 가입자 중 현재 한달 3천자 미만을 다운로드 하는 유저는 무료로 이용이 가능하고, 월 3천자 이상 다운로드가 필요한 유저는 원하는 사용량에 따라 유료 이용권을 구매하는 방식이다. 기업이나 공공 기관, 단체 등 대량의 음성 서비스 이용 등 협의가 필요한 케이스는 별도로 진행한다. 유료 서비스 론칭 이후 매월 결제액이 평균 50% 이상씩 증가하고 있으며, 올 한 해 성과는 내년초 결산이 끝나면 공개될 예정이다.

 

-구글, 아마존은 아직 연구논문 발표하는 단계

-네오사피엔스의 기술은 타입캐스트를 통해 실 사용 서비스로 빠르게 진전

음성합성은 구글, 아마존 등 글로벌 대기업들이 큰 투자를 해가면서 연구 개발하고 있는 기술이다. 이를 통해 많은 논문들이 발표되고 있다. 네오사피엔스도 이 분야에 의미있는 논문들을 꾸준히 발표하고 있으며, 실제로 구글, 아마존 등이 발표하는 최근 논문에는 이들 논문이 인용되고 있다.

김태수 대표는 "실제로 사용자들이 유용하게 쓰는 기술이 되기 위해서는 연구 논문에서는 보이지 않는 수많은 개선점들이 있는데 우리는 일찍이 일반 사용자들이 쓸 수 있는 상용 서비스로 시장에서 검증을 받으면서 그런 부분을 빠르게 개선해 나가는데 강점이 있다고 본다"면서 "특히, 감정표현 및 자연스러움, 상황에 걸맞는 음성표현 등은 아주 미묘한 부분들이 있어서 연구실에서 기술만 개발한다고 실현되는 것은 아닌데 이러한 것들을 결국 시장에서 검증받으면서 개선하는 것이 우리가 나아가고 있는 방향"이라고 밝혔다.

 

-세계 최초 유료 AI 오디오북 출시

-유튜브, 틱톡 시장수요 급증

네오사피엔스 직원들의 모습 / 사진제공=네오사피엔스
<네오사피엔스 직원들의 모습 / 사진제공=네오사피엔스>

네오사피엔스는 타입캐스트 외에도 음성합성기술을 이용한 다양한 시장이 발굴되고 있는 만큼 그 시장에 적합한 기술과 서비스를 고도화하는 노력을 기울이고 있다. 오디오북의 경우 작년 8월경 대교와 미디어 사업 관련 전략적 제휴를 체결, 세계 최초 유료 오디오 북을 출시한 사례가 있다. 책을 오디오 북으로 만드는 과정에서 기존과 같이 성우와 직접 녹음 및 편집하려면 시간과 비용이 만만찮은데, 타입캐스트로 작업하면 시간과 비용 대비 콘텐츠의 퀄리티를 높일 수 있다. 최근에는 곰앤컴퍼니가 비공개 테스트를 시작으로 론칭 준비 중인 비디오 편집기 ‘페이퍼 비디오’ 내 음성 생성을 타입캐스트로 이용할 수 있게끔 협업했다. 이외에도 방송국, 엔터테인먼트사, 콘텐츠 플랫폼사 등 여러 기업들과 비공개로 프로젝트를 진행중이다.

유튜브, 틱톡 등 비디오 시장이 급성장하면서 이 시장 수요도 급증하고 있다. 김 대표는 "이들 영상 매체에 반드시 필요한 요소 중 하나가 감정과 개성이 표현되는 음성이라 이들 분야에도 타입캐스트의 수요가 급격히 늘고 있다"며 "게다가 올해는 코로나19 사태로 거의 모든 산업에 ‘언택트(비대면)’ 키워드가 떠올라, 인공지능과 음성이 결합된 기술이 진출할 수 있는 분야는 갈수록 더 넓어질 것으로 보고 있다"고 밝혔다. 그러나 그는 "일반인 등 특정 인물의 목소리 주문제작 서비스는 상품으로서의 효용성과 추후 오용될 수 있는 위험성 등을 꼼꼼하게 파악해 최대한 문제가 생기지 않을 정도의 디테일한 기술과 보호 장치 등을 보완하는 작업이 우선되어야 한다"면서 아직은 시기상조라고 밝혔다.

네오사피엔스의 궁극적인 목표는 기술을 통해 전세계 사람들의 삶을 혁신적으로 바꾸는 것이다. 이를 위해 기술력 향상과 해외 유저의 사용 편의성을 극대화해 타입캐스트를 글로벌 서비스로 자리매김하는 것이 향후 1~2년 간 목표이다. 이를 통해 미디어와 엔터테인먼트 산업의 한 획을 긋겠다는 포부를 향해 가고 있다.

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.