Azure Speech Studio 를 활용한 영상 음성 AI 번역하여 글로벌 서비스하기

오늘은 AI 활용 꿀팁을 정리해보려고 한다.

지금 우리 회사에서 서비스중인 SPUM 유니티용 어셋의 경우, 대부분의 사용자들이 글로벌 사용자여서 사용자들을 위한 튜토리얼을 제작하면, 한글로 설명을 하고 자막으로 설명을 추가해주고 있는데, 그러다보니 이해력도 좀 부족하게 되고, 영어로 영상을 제공해줄 수 있냐는 문의가 오곤 한다.

그래서, 오늘은 Microsoft 의 클라우드 기반 AI 서비스인 AI Speech Studio 를 활용하여, 제작된 언어를 영문으로 제공할 수 있는 방법을 소개하려한다.

먼저, AI Speech 서비스는 다음과 같다.

https://speech.microsoft.com/portal

말 그대로 음성에 관련된 다양한 AI 기반 기능 및 서비스를 활용할 수 있는 서비스이다. 요즘은 많이 사용되는 음성을 실시간으로 텍스트 자막으로 만들어주거나, 음성 통화등을 데이터 분석 해주는 것, 라이브채팅 아바타등 다양한 서비스를 활용할 수 있다.

그 중에서도 오늘은 ‘텍스트 음성 변환’ 을 사용해보려 한다. 텍스트 음성 변환을 가면, 음성 갤러리, Custom Voice, 개인 음성, 오디오 콘텐츠 만들기 등 다양한 서비스가 존재하고 있다.

그 중에서 음성 갤러리에 들어가보자

그러면 아래와 같은 다양한 형태의 성별, 인종, 나이대, 말투 등등에 따라서 가상 보이스를 만들어줄 수 있는데, 이게 참 재밌는 서비스이다. 그래서 이 서비스를 활용해서 전달하고자하는 톤을 만들어줄 수 있는데, 실제로 사용해보니 어떤 사운드가 개발용 언어에 어울리는지 선택하는 것이 매우 중요했다.

아래와 같이 다양한 설정도 고를 수 있다.

나는 예제를 위해서 아래와 같이 팟캐스트 태그를 선택하여 Brian Multilingual 을 선택해주었다. 선택후 프리뷰를 할 수 있다.

이제 어떤 목소리를 사용할지 선택하면 실제로 컨텐츠를 만들 차례이다. 하단의 “오디오 콘텐츠 만들기로 이동” 을 눌러보자.

그럼 아래와 같이 텍스트를 넣고 그 텍스트를 아까 선택한 음성으로 읽어주는 서비스를 만날 수 있다.

나는 AI 를 이용하여, 오늘의 날씨를 재미있게 설명해주는 리포터 느낌으로 텍스트를 만들어 달라고 했고, 이를 넣어보고 테스트를 해보았다.

역시 아주 잘 음성으로 만들어준다. 상세 옵션은 잘 사용을 안해봤지만, 어휘집, 음조, 피치, 요금(라고 써있지만 말하기 속도 ) , 볼륨등을 선택할 수 있다.

상단의 프리뷰 메뉴를 눌러서 테스트를 해보고 최종적으로 만족할만하게 음성이 나오면, 저장을 해줘야 한다.

그리고 내보내기를 누르면 Azure 저장소에 저장하거나 혹은 로컬 디스크로 내보내기를 선택할 수 있다. 나의 경우에는 보통 로컬 디스크로 내보내기를 사용한다.

아래와 같이 내보내기 형식과 오디오 형식의 경우 포맷을 선택할 수 있고, 전체 내보내기를 할지 단락 내보내기를 할지를 선택할 수 있다.

최종 결정을 하고 내보내기를 누르면 약간의 인코딩 시간이 발생하고, 파일 저장하기 형식으로 다운로드 폴더에 저장된 mp3 파일이 위치하게 된다.

그리고 이렇게 만들어진 음성파일을 원본 영상에 편집해서 사용하면 된다.

그래서 전체적인 과정을 설명하면 다음과 같은 프로세스로 사용할 수 있다.

  1. 한국어로 영상을 촬영한다.
  2. 촬영된 영상을 1차로 편집하여 어색한 부분이나 잘못된 부분은 삭제한다.
  3. 편집된 영상에서 자막을 자동으로 추출한다. ( 프리미어 프로나, 위스퍼등 사용 )
  4. 자막을 ChatGPT 등에 넣어서, 문장을 영어로 번역하면서 정리해달라고한다.
  5. 번역된 문장이 번역이 잘못된 부분이 없는지, 어색한 부분은 없는지 확인해본다.
  6. 최종 완성된 텍스트를 AI Speech Studio 로 가져와서 음성으로 만든다.
  7. 제작된 음성을 편집 영상으로 가져가서 씬에 맞게 맞춰준다.

이런 프로세스로 제작하게 되는데, 좀 번거로운 과정이긴 하지만, 통으로 번역 영상을 의뢰를 맡기거나하는 것에 비해서는 매우 쉽고 저렴하게 사용이 가능하다.

물론, Speech Studio 에서는 위와 같은 번거로운 과정없이 그냥 한글로된 영상을 집어넣으면 바로 영어로 통으로 만들어주는 서비스도 존재하는데, 개인적으로는 별로 추천하고 싶지 않다.

왜냐면 아무래도 같은 씬에 대한 설명이어도, 한글과 영어의 음절의 길이가 다르고 그것을 고려한 컷 편집을 한 것이 아니다보니, 정말로 한 장면에 같은 시간을 영어로 설명하게 되면 거의 랩을 하는 것처럼 쭈우우욱 나오기 때문에, 그것에 고려한 편집을 해놓지 않는한 좋은 결과물을 보긴 어려울 것 같다.

나의 경우에는 ㅋㅋ 충격적인 결과를 만났었어서..

또한 가격이 대략 1분당 1달라정도라고하니, 결과가 엉망이면 돈만 날리게 되니… 충분한 이해도를 갖추지 않는한 추천하기는 어려운 것 같다.

자세한 내용은 아래 영상을 통해서 보시길 바란다. 일련의 작업 과정들을 유튜브 영상으로 만들어둠.

그리고 마지막으로 가장 중요한 가격을 이야기해봐야하는데, 위 기능은 엄청 강력한 기능이니 만큼 당연히 무료는 아니고 유료로 사용이 가능하다.

단, 무료 요금제가 존재하며 그 내용은 다음과 같다.

그 외에는 유료 청구 가격이 존재하는데, 실제 번역을 대신해주는 것 치고는 가격이 괜찮은 것 같다.

단, 좀 고급의 기능을 사용한 음성 모델, 및 자신의 목소리를 인식 시키는 방식등은 비용이 꽤 비싸다. 따라서 고급 기능을 사용하기 전에 꼭 무료를 사용해서 사용법을 익히고 사용하는 것을 추천한다.

나의 목소리를 트레이닝해서 대화를 하게하는 기능도 꽤나 재밌는데..
한번 도전해보길 바란다. ( 나의 경우에는 너무 어색해서 충격 받음.. )

또한, 이를 상업적으로 이용하거나 정식적으로 이용하기위해서는 별도의 신청을 해야만한다. 아무래도 이를 악용할 수 있는 경우도 있다보니 그런 것 같다.

이상으로 글로벌 서비스를 위한 MS Azure Speech Studio 활용 팁을 마쳐본다.

AI 를 활용한 업무 향상 및 컨텐츠 제작 & 활용은 이제부터 시작인 것 같다. 더 저렴하고 더 다양한 서비스가 등장한다면 훨씬더 좋은 생산성 향상을 가져오리라 믿어 의심치 않는다.

또한 이러한 과정이 기존의 번역가분들의 일자리를 위협하기도 할 수 있지만, 동시에 그 분들이 이러한 툴을 잘 익숙해져서 더 잘 활용한다면 더 고품질의 번역, 다양한 생산성을 가져올수 있으리라고 생각하며 글을 정리해본다.

Leave a Comment