[아이뉴스24 박진영 기자] 인공지능(AI) 기술을 활용하면 친구, 가족 등 주변 지인 목소리는 물론, 본인의 목소리까지 손쉽게 구현할 수 있게 됐다. 이른바 '개인화 음성합성' 기술을 통해 저품질의, 적은 데이터 양으로도 자연스러운 목소리를 만들어낸다.
NHN클라우드는 27일 자연스러운 음성합성과 개인화 서비스 주제로 한 웨비나를 통해 텍스트 음성 변환(TTS) 기술 동향 및 향후 계획 등을 소개했다.
음성합성은 텍스트를 음성으로 변환·합성하는 과정으로, TTS(Text To Speech)라고도 한다. 사전 녹음된 목소리를 기반으로 하기에 부자연스러운 발화가 문제였는데, 최근 AI기술이 접목되면서 자연스러우면서 문장에 알맞는 감정까지 담은 음성을 만들 수 있게 됐다. 일례로 온라인 고객 상담 문의, 동일한 공지 및 안내 방송, 고령자 장애인을 위한 음성 서비스 등에 활용된다.
더욱이 최근에는 본인이나 친구, 가족, 유명인 등의 음성을 만들어내는 '개인화 TTS 서비스'가 각광받고 있다. 전문 성우가 아닌 부면의 목소리를 이용해 컨텐츠를 제작하기에 생활 속 TTS가 보편화될 수 있다.
이에 대해 NHN클라우드 관계자는 "현재 자연스러운 음성합성을 위해 성우분들이 정확한 발음으로 녹음한 데이터를 사용해 학습한 모델을 사용하고 있다"면서, "개인화 서비스의 경우, 성우분들처럼 정확한 발음으로 녹음하기가 힘들기 때문에 발음이 뭉개지는 부분까지 모델이 학습할 수 있다"고 밝혔다.
다만, 이를 위해선 기술적으로 풀어야 할 여러 과제가 있다. 보통 10~20시간 분량의 음성데이터가 필요하고, 정확한 발음으로 스튜디오에서 녹음돼야 서비스 구현이 쉽다. 개인화 TTS의 경우, 저음질의 매우 적은 음성 데이터만을 활용해 목소리를 만들어내야 한다.
이날 웨비나를 진행한 박기남 NHN클라우드 NLP랩 전임은 "NHN클라우드는 TTS 기본 모델에 스타일 인코더라는 기능을 인코더와 디코더 과정에 추가해 적은 데이터로도 개인화된 음성합성이 가능하도록 했다"면서, "현재 1분 분량의 데이터로 개인화 TTS 제작이 가능하며, 이를 통해 엄마 목소리로 읽어주는 동화책, 연예인 목소리로 깨워주는 알람, 트레이너 목소리로 시작하는 운동루틴 등 생활 속 다양한 영역에 활용될 수 있다"고 밝혔다.
NHN클라우드는 지난 1월 TTS 클라우드 API를 론칭, 현재 감정 영역 추가를 완료했다. 연내에 영어 화자, 일본어 화자 서비스를 추가할 예정이다. 내년 1월, 'TTS 클라우드 개인화 API'를 정식 론칭하고, 동화책 읽기 서비스를 출시하는 등 지속적인 업데이트를 할 계획이다.
NHN클라우드 관계자는 "음성합성과 개인화 서비스 기술을 통해 내가 원하는 목소리로, 원하는 콘텐츠를 말하게 할 수 있을 뿐만 아니라, 이를 이용해 여러 개인화된 어플리케이션 제작도 가능하다"면서, "NHN클라우드 TTS 서비스는 합성속도가 타사 대비 빠르고 피치나 속도 등을 유연하게 조절할 수 있다는 데 차별점이 있다"고 전했다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기