TTS기술 진화…AI 스피커도 맞춤형으로 변화

셀럽 목소리 입히고…1분 학습 후 한국어를 영어로 변환
연말 AI 스피커 시장 800만대 확대 전망

2019-11-14 15:24:59 ㅣ 2019-11-14 15:24:59

[뉴스토마토 이지은 기자] 음성합성기술(TTS, Text To Speech)이 진화를 거듭하고 있다. TTS는 문자를 음성으로 바꾸는 인공지능(AI) 기술이다. 일반 음성이 빅데이터와 AI 기술과 결합하면서, 기계적인 소리 조합이 자연스러운 합성음을 만들어내고 있다. 이는 AI 스피커에 적용되면서 서비스 확대로 이어지고 있다.

14일 정보통신업계에 따르면 TTS 기술이 진화함에 따라 AI 스피커 서비스도 다양화하고 있다. 유명 스타의 목소리가 AI 스피커에 탑재되거나, 개인의 필요에 따라 음성을 선택적으로 도입하면서 전보다 개인화된 AI 스피커 사용이 가능해진 것이다.

SK텔레콤은 SM엔터테인먼트와 협력해 AI 스피커 누구(NUGU)에 누구 셀럽 알람 기능을 선보였다. 인기 걸그룹 레드벨벳 멤버 아이린의 목소리를 담았다. 아이린의 목소리를 통해 일정 등 다양한 알람을 제공받을 수 있다. SK텔레콤은 이 기능을 구현하기 위해 음성합성(DNN-TTS) 기술을 사용했다. AI가 아이린의 음성 데이터를 학습해 진짜 아이린 목소리처럼 소리를 낸 것이다. SK텔레콤은 내년부터 AI 스피커 누구에 아이린 외에도 SM타운 소속 가수들의 목소리가 지속적으로 탑재될 예정이다.

SK텔레콤 인공지능 스피커 ‘누구 네모(NUGU nemo)’에서 ‘에브리싱(everysing)’ 서비스를 즐기고 있다.

SK텔레콤 인공지능 스피커 누구 네모에서 에브리싱 서비스를 즐기고 있다. 사진/SK텔레콤

KT 홍보모델들이 기가지니 성경 서비스를 사용하고 있다. 사진/뉴시스

KT는 영어 개인화 음성합성(English P-TTS) 기술 상용화를 준비 중이다. 이는 한 문장만 녹음하면 AI가 이를 학습해 유창하게 영어 동화를 구현할 수 있도록 하는 기술이다. 지난 5월 목소리 녹음 300문장, AI 학습시간 24시간 걸리던 것이 1문장 녹음과 1분 학습으로 구현해내는 시간이 단축됐다. 6개월 안에 AI를 활용해 동화를 읽어줄 수 있는 서비스를 상용화할 예정이다. 향후 이 기술은 실시간 통역 대화, 감성 AI 친구 등의 서비스로 확장될 수 있다.

업계에서는 TTS 기반 기술 진화로 AI 스피커가 맞춤형 서비스로 진화할 수 있을 것으로 기대하고 있다. 딥러닝을 통해 개인 취향에 맞춘 음성 서비스 이용이 가능할 것으로 보는 것이다. 업계 관계자는 "TTS 기술은 단시간에 학습할 수준으로 정교화되고 있다"며 "이 기능이 고도화되면 맞춤형 음성 서비스를 선택적으로 받을 수 있다"고 설명했다. 맞춤 서비스로 진화하면서 시장 확대도 전망된다. 올해로 국내 출시 3년째인 AI 스피커는 업계 추산 지난 3월 400만대를 돌파했다. 연말에는 800만대에 달할 것으로 관측되고 있다.

이지은 기자 jieunee@etomato.com