Azure Speech Studio 를 활용한 영상 음성 AI 번역하여 글로벌 서비스하기

오늘은 AI 활용 꿀팁을 정리해보려고 한다.

지금 우리 회사에서 서비스중인 SPUM 유니티용 어셋의 경우, 대부분의 사용자들이 글로벌 사용자여서 사용자들을 위한 튜토리얼을 제작하면, 한글로 설명을 하고 자막으로 설명을 추가해주고 있는데, 그러다보니 이해력도 좀 부족하게 되고, 영어로 영상을 제공해줄 수 있냐는 문의가 오곤 한다.

그래서, 오늘은 Microsoft 의 클라우드 기반 AI 서비스인 AI Speech Studio 를 활용하여, 제작된 언어를 영문으로 제공할 수 있는 방법을 소개하려한다.

먼저, AI Speech 서비스는 다음과 같다.

https://speech.microsoft.com/portal

말 그대로 음성에 관련된 다양한 AI 기반 기능 및 서비스를 활용할 수 있는 서비스이다. 요즘은 많이 사용되는 음성을 실시간으로 텍스트 자막으로 만들어주거나, 음성 통화등을 데이터 분석 해주는 것, 라이브채팅 아바타등 다양한 서비스를 활용할 수 있다.

그 중에서도 오늘은 ‘텍스트 음성 변환’ 을 사용해보려 한다. 텍스트 음성 변환을 가면, 음성 갤러리, Custom Voice, 개인 음성, 오디오 콘텐츠 만들기 등 다양한 서비스가 존재하고 있다.

그 중에서 음성 갤러리에 들어가보자

그러면 아래와 같은 다양한 형태의 성별, 인종, 나이대, 말투 등등에 따라서 가상 보이스를 만들어줄 수 있는데, 이게 참 재밌는 서비스이다. 그래서 이 서비스를 활용해서 전달하고자하는 톤을 만들어줄 수 있는데, 실제로 사용해보니 어떤 사운드가 개발용 언어에 어울리는지 선택하는 것이 매우 중요했다.

아래와 같이 다양한 설정도 고를 수 있다.

나는 예제를 위해서 아래와 같이 팟캐스트 태그를 선택하여 Brian Multilingual 을 선택해주었다. 선택후 프리뷰를 할 수 있다.

이제 어떤 목소리를 사용할지 선택하면 실제로 컨텐츠를 만들 차례이다. 하단의 “오디오 콘텐츠 만들기로 이동” 을 눌러보자.

그럼 아래와 같이 텍스트를 넣고 그 텍스트를 아까 선택한 음성으로 읽어주는 서비스를 만날 수 있다.

나는 AI 를 이용하여, 오늘의 날씨를 재미있게 설명해주는 리포터 느낌으로 텍스트를 만들어 달라고 했고, 이를 넣어보고 테스트를 해보았다.

역시 아주 잘 음성으로 만들어준다. 상세 옵션은 잘 사용을 안해봤지만, 어휘집, 음조, 피치, 요금(라고 써있지만 말하기 속도 ) , 볼륨등을 선택할 수 있다.

상단의 프리뷰 메뉴를 눌러서 테스트를 해보고 최종적으로 만족할만하게 음성이 나오면, 저장을 해줘야 한다.

그리고 내보내기를 누르면 Azure 저장소에 저장하거나 혹은 로컬 디스크로 내보내기를 선택할 수 있다. 나의 경우에는 보통 로컬 디스크로 내보내기를 사용한다.

아래와 같이 내보내기 형식과 오디오 형식의 경우 포맷을 선택할 수 있고, 전체 내보내기를 할지 단락 내보내기를 할지를 선택할 수 있다.

최종 결정을 하고 내보내기를 누르면 약간의 인코딩 시간이 발생하고, 파일 저장하기 형식으로 다운로드 폴더에 저장된 mp3 파일이 위치하게 된다.

그리고 이렇게 만들어진 음성파일을 원본 영상에 편집해서 사용하면 된다.

그래서 전체적인 과정을 설명하면 다음과 같은 프로세스로 사용할 수 있다.

한국어로 영상을 촬영한다.
촬영된 영상을 1차로 편집하여 어색한 부분이나 잘못된 부분은 삭제한다.
편집된 영상에서 자막을 자동으로 추출한다. ( 프리미어 프로나, 위스퍼등 사용 )
자막을 ChatGPT 등에 넣어서, 문장을 영어로 번역하면서 정리해달라고한다.
번역된 문장이 번역이 잘못된 부분이 없는지, 어색한 부분은 없는지 확인해본다.
최종 완성된 텍스트를 AI Speech Studio 로 가져와서 음성으로 만든다.
제작된 음성을 편집 영상으로 가져가서 씬에 맞게 맞춰준다.

이런 프로세스로 제작하게 되는데, 좀 번거로운 과정이긴 하지만, 통으로 번역 영상을 의뢰를 맡기거나하는 것에 비해서는 매우 쉽고 저렴하게 사용이 가능하다.

물론, Speech Studio 에서는 위와 같은 번거로운 과정없이 그냥 한글로된 영상을 집어넣으면 바로 영어로 통으로 만들어주는 서비스도 존재하는데, 개인적으로는 별로 추천하고 싶지 않다.

왜냐면 아무래도 같은 씬에 대한 설명이어도, 한글과 영어의 음절의 길이가 다르고 그것을 고려한 컷 편집을 한 것이 아니다보니, 정말로 한 장면에 같은 시간을 영어로 설명하게 되면 거의 랩을 하는 것처럼 쭈우우욱 나오기 때문에, 그것에 고려한 편집을 해놓지 않는한 좋은 결과물을 보긴 어려울 것 같다.

나의 경우에는 ㅋㅋ 충격적인 결과를 만났었어서..

또한 가격이 대략 1분당 1달라정도라고하니, 결과가 엉망이면 돈만 날리게 되니… 충분한 이해도를 갖추지 않는한 추천하기는 어려운 것 같다.

자세한 내용은 아래 영상을 통해서 보시길 바란다. 일련의 작업 과정들을 유튜브 영상으로 만들어둠.