사람 목소리와 점점 닮아가는 ‘인공지능 성우’

- Advertisement -

영화 ‘그녀(HER)’ 출처: IMDB

영화 그녀(Her)에서 주인공은 사만다라는 인공지능(AI) 운영체제와 사랑에 빠진다. 둘은 목소리만으로 소통한다. 일상에서 사소한 얘기를 공유하면서 많은 감정을 나눈다. 시간이 지나면서 둘은 보다 깊은 감정을 공유하게 되고 연인으로 발전한다.

인공지능 사만다의 허스키한 목소리는 상당히 매력적이다. 실제 사람처럼 웃기도 하고 놀리는 말투, 미묘한 숨소리까지 실감 나게 표현한다. 이처럼 현실에서도 인공지능이 실제 사람과 비슷한 목소리를 가지고 사람과 소통할 수 있다면 어떨까.

인공지능 비서 ‘시리(siri)’ 출처: zdnet

현재도 쉽게 인공지능 스피커, 오디오 콘텐츠에서 쉽게 인공지능 목소리를 들을 수 있다. 하지만 일정한 어조, 기계적인 발성 등 사람의 목소리와는 확연하게 구별되는 특성을 가진다. 현재 기업들은 보다 실감 나는 목소리를 구현하기 위한 기술을 개발 중이다. 대표적으로 인공지능 음성 스타트업 기업 소난틱(Sonantic)이 있다.

최근 소난틱은 새로운 인공지능 오디오 기술 개발 소식을 전했다. 17일(현지시간) 미국 IT 매체 더버지(Theverge)는 소난틱이 새로운 ‘오디오 딥페이크(audio deepfake)’ 기술을 개발했다고 보도했다. 오디오 딥페이크(deepfake) 기술이란 인공지능 딥러닝(deep learning) 기술로 실제 사람의 목소리를 분석하고 합성해 목소리를 구현하는 기술이다.

출처: intelligentliving

소난틱의 인공지능 모델은 기존의 인공지능 목소리보다 실감 나는 목소리를 구현할 수 있다. 여기에는 소나틱의 새로운 오디오 딥페이크 기술이 적용된다. 해당 기술은 인공지능 모델이 방대한 음성 데이터를 학습하고 분석해 비음성 소리를 오디오에 합성할 수 있다. 인간 음성 속에 숨은 웃음, 놀리는 어조, 유혹 등 미묘한 뉘앙스를 분석하고 재현하는 것이다. 인공지능 목소리가 표현할 수 있는 감정에는 분노, 두려움, 슬픔, 기쁨 등이 포함된다고 밝혔다.

‘오디오 딥페이크(audio deepfake)’ 기술 출처: digit.fyi

소난틱의 최고경영자(CEO)인 지나 쿠레시(Zeena Qureshi)는 자사 소프트웨어를 ‘음성을 위한 포토샵’이라고 표현했다. 이미지를 편집하는 것처럼 사용자가 직접 전달하고 싶은 말을 입력하고 분위기, 느낌 등을 선택해 원하는 목소리를 합성할 수 있다. 또한 직접 목소리의 높낮이와 세기, 웃음과 호흡과 같은 비음성 발성도 세밀하게 조절 가능하다.

지나 쿠레시는 더버지에서 “우리의 고객은 대부분 최고급 게임, 엔터테인먼트 스튜디오이며 다른 산업으로 영역을 넓혀나가고 있다. 최근에는 메르세데스(Mercedes)와 차량 내 디지털 비서를 맞춤 제작하기 위한 파트너십을 교류했다.”라고 언급했다.

출처: diceinsights

추후 다양한 산업 분야에서 보다 실감 나는 인공지능 목소리를 구현할 수 있을 전망이다. 사용자들은 업무, 가사, 교통 등 일상 전반에서 실제 같은 인공지능 성우와 소통할 수 있을 것으로 기대된다.

테크플러스 에디터 유주현

tech-plus@naver.com​

[fv0012]

- Advertisement -

댓글

Please enter your comment!
Please enter your name here

Related Stories