본문 바로가기

일상정보

동영상 자동 자막 인공 신경망 번역기술과 AI스피커의 혜택들!

반응형

자동자막 기술은 어디까지 왔는가?

빠르게 발달하는 AI의 기술중에서 신기하다고 느껴지는 것이 바로 유튜브와 같은 동영상 플랫폼의 자동자막 기능일 것입니다. 2006년에 이런 자막 기능을 처음 선보였는데 현재는 대부분의 동영상에서 볼 수가 있지요. 


하지만 아직까지도 일부 자막을 보면 말하는 것과 자막이 잘 안 맞는다거나 씽크가 조금씩 어긋나는 경우도 느끼게 됩니다. 그 정확성을 높이기 위해서 많은 노력을 해왔는데 이런 기술에는 음성인식과 기계학습 머신러닝의 알고리즘이 탑재되어 있지요. 


영화 한편을 전세계에 서비스하려면 주요나라의 언어로 번역해서 자막을 만든다는 것이 엄청난 인력과 돈이 들어간다고 생각됩니다. 이런 서비스를 모두 자동으로 해버린다면 그야말로 획기적이지만, 때론 많은 일자리가 줄어든다고도 여겨지지요. 


번역 서비스는 기본적으로 TTL번역이 일반적입니다. 문자화된 텍스트파일을 번역해서 자막을 보여주는 기술이지요. 현재는 기술이 더욱 발저하여 신경망 번역기술까지 업그레이드가 된 상태입니다. 단어 하나하나를 번역하는 하는 것이 아니라 문맥까지 인식한 통번역을 하기에 그 번역 속도가 대단히 빨라졌지요. 


자동 통번역인 구글의 번역기는 영어 대 스페인어의 번역이 제일 많이 사용되고 있습니다. 전세계 공용어이다 보니 그런듯하네요. 번역의 방식에는 규칙에 의한 번역과 통계에 의한 번역이 있습니다. 둘다 장단점이 확실히 갈리는 방식들이지요. 현재는 통계기반이 많이 사용되고 있습니다. 


신경망 번역기술동영상 자막은 인공 신경망 번역기술로 구현됩니다.




 인공 신경망 번역기술

최근의 번역기술인 신경망 기술은 번역을 시작하는 문장에서 끝문장까지 그 중간의 가중치를 찾아서 행렬 곱을 통해서 벡터값을 구하는 방식이라고 합니다. 정말 듣기만 해도 골치가 아플 정도인데요. 최적 가중치를 기계가 반복적으로 학습을 하면서 찾아갑니다. 


가상의 공간이 있다고 상상해보시지요. "걷다" 라는 단어를 그 가운데에 생성시킵니다. 그 단어 주위를 둘러싸고 "걸었다", "걸겠다" 등등의 파생되는 단어들이 생기게 되지요. 파생된 단어들과 연관된 또 다른 단어가 공간 여기저기 위치할 수 있습니다. 이렇게 생성되는 차원이 200차원까지 확장되어 단어표현들이 변환되는 것이죠. 


더 깊게 들어가면 해석이 너무 어려울 것 같네요. 여하튼 위와 같은 개념을 가진 인공 신경망 기계번역은 병렬처리 방식으로 그 효율성을 높이고 있습니다. 사람의 뇌구조와도 같은 망을 모방해서 번역을 할 수 있다는게 참 좋은 아이디어 이네요. 


 팟캐스팅의 근간인 AI스피커

요즘 1인 가정에 반려동물을 많이 키우듯이 언젠가부터 1인 비서인 인공지능 스피커를 마련하는 사람들이 많아졌지요. 한때 붐이 일어서 또는 호기심에 따라 장만하는 것일 수도 있습니다. AI의 영역이 스피커에까지 다다른 것이죠. 이런 스피커에는 크게 다섯가지의 항목으로 만들어진다고 합니다. 그 첫째는 "문법"이지요. 


바로 사람이 스피커에게 지시하는 명령 또는 말입니다. 둘째는 "프롬프트"인데요. 컴퓨터에서 입력을 기다리면서 깜빡대는 커서를 지칭합니다. 여기서의 의미는 스피커가 인간에게 들려주는 문장을 얘기하지요. 셋째는 "운율"입니다. 이는 어떤 정체성을 나타내기 위한 말투 또는 해당 목소리의 톤 및 높낮이를 지칭하지요. 


넷째는 페르소나로서 "모습"을 뜻하는데요. 바로 성격이나 정체성을 말합니다. 스피커에서 나오는 소리가 구사하는 연령대마다 틀리고 호감이 가느냐 안가느냐가 각기 다르지요. 각 사람들마다 풍겨나오는 느낌과 목소리에 인상이 바뀌는 것처럼 말입니다. 마지막은 "상호작용"입니다. 집에 설치한 스피커는 나의 개인비서일수도, 애완용일수도 기타 다른 용도로 사용될 수 있지요. 


네이버에서는 프렌즈가 있고, SKT에서는 누구, KT는 기가지니라는 제품이 있습니다. 외국의 많은 대기업들도 많은 AI스피커를 사용화시키고 있지요. 각 회사마다 장점을 살린 제품을 특화시키는 추세입니다. 옛날에는 스피커로 일방적인 음악만 듣는 수준을 벗어나 이제는 스피커와 상호 대화를 하는 시대에 살고 있네요. 


인공지능 스피커많은 IT회사는 특별한 인공지능 스피커 제품을 생산하고 있지요.



 정치를 귀로 듣는 팟캐스트

현재의 유튜브에서는 정치적인 이슈를 가지고 진행을 하는 것이 큰 인기를 끌고 있습니다. 이것은 눈으로 보는 것이 중점이지만, 아직도 귀로 듣는 팟캐스트가 존재하지요. 기존에는 일반 미디어들이 색깔이 있는 논쟁은 주제가 민감해서 잘 다루기가 어려웠습니다. 그 틈새를 팟캐스팅이 효율적으로 활성화하기 시작했지요. 


아무래도 동영상으로 제작하는 비용보다는 저렴하기에 이용되는 것 같습니다. 이런 팟캐스팅 콘텐츠와 맞물려서 오디오 분야의 수익모델이 갖추어진 것이지요. 그렇게 더불어 인공지능 스피커의 시장도 같이 활성화가 되었습니다. 그 일환으로 유명해진 것이 바로 팟빵이지요. 1인 오디오 크리에이터인 팟스타가 나타난 것도 이 시기이지요. 


동영상이 대세인 지금도 듣는 서비스는 사라지지 않고 있습니다. 전자책에서도 귀로 문장을 읽어서 듣는 서비스도 더욱 활성화되고 있지요. 이처럼 자동 자막 기술과 AI스피커의 등장으로 인공지능의 활용방향은 점점 넓어만 가고 있습니다. 그 끝이 어디까지 일지 짐작조차 가지 않네요. 우리의 모든 일상에 파고드는 기술에 혜택을 보는 날만 계속되길 바래봅니다. 

반응형