![프랑스 유튜브 채널 '프렌치 페이커'의 딥페이크 영상에서 가짜 목소리를 내는 도널드 트럼프 대통령 [사진 '프렌치 페이커' 캡처]](https://pds.joins.com/news/component/htmlphoto_mmdata/202002/27/52ac4fcf-55f0-4fc7-9002-63fe45acb577.jpg)
프랑스 유튜브 채널 '프렌치 페이커'의 딥페이크 영상에서 가짜 목소리를 내는 도널드 트럼프 대통령 [사진 '프렌치 페이커' 캡처]
왜 만들었어?
-김재민 네이버 서치앤클로바 보이스(이하 클로바더빙) 책임리더는 "음성은 터치만큼 자연스럽고, '모빌리티'와 '연결(커넥티비티)'이 강화될수록 효용성과 필요성이 모두 높아진다"고 말했다.
-김 책임리더는 "동영상에 음성을 넣고 싶지만 기술에 어둡고 목소리에 자신이 없었던 소상공인과 크리에이터에게 유용할 것"이라고 말한다. 네이버가 꼽는 음성 AI 시장은 뉴스, 광고, 오디오북, 전시 도슨트.
빅 픽쳐
-핵심 기술은 크게 세 가지다.
①음성 인식(음성→텍스트): 목소리로 검색하기 → AI 스피커, AI 비서
②음성 합성(텍스트→음성): 입력한 글자 읽어주기 → 클로바더빙, 구글 웨이브넷
③음성 변환(음성A→음성B): 사이버 가수, 외국어 더빙(예: 한국말 하는 톰 크루즈)
-이중 음성 합성은 '가수 아이유가 오늘 일정을 말해준다'고 상상하면 된다. 일정이 적힌 텍스트를 바탕으로 아이유의 발음·속도·호흡을 추정해 아이유가 실제 읽은 것처럼 목소리를 내는 기술이다.
![네이버가 지난 10일 출시한 '클로바더빙' 사용법. 5분 이내의 동영상에 원하는 목소리와 효과음을 넣을 수 있다. [사진 '클로바더빙을 소개합니다' 영상 캡처]](https://pds.joins.com/news/component/htmlphoto_mmdata/202002/27/5fe14b7c-168a-483f-bb7b-0f000a07b9f2.jpg)
네이버가 지난 10일 출시한 '클로바더빙' 사용법. 5분 이내의 동영상에 원하는 목소리와 효과음을 넣을 수 있다. [사진 '클로바더빙을 소개합니다' 영상 캡처]
이게 왜 중요해?
-동시에, 음성 AI가 '딥페이크(오디오·비디오 조작)'에 악용될 가능성도 높아졌다.
-임종인 고려대 정보보호대학원 교수는 "가짜뉴스·딥페이크로 생긴 불신 풍조에 음성 조작까지 더해지면 사이버 공간에서 사람들이 떠나버릴 수 있다"며 "악당은 언제나 앞선 기술을 활용한다. 기업이 꼭 사업을 해야겠다면 부작용에 대해서도 대비해야 한다"고 강조했다.
-반면 같은 대학원 김승주 교수는 "역기능을 우려해 신기술의 발전을 막아선 안 된다. 일반에 데이터를 공개하는 등 집단지성으로 '가짜'를 구별하는 기술을 촉진하는 것이 바람직하다"고 말했다.
-익명을 원한 한 글로벌 AI 기업 임원은 "딥페이크는 겉보기엔 구분이 안 돼도 AI를 통하면 조작됐다는 걸 밝혀낼 수 있다"고 설명했다.
이전에는 없었어?
-2017년 캐나다 스타트업 '라이어버드'는 짧은 음성 데이터로도 특정인의 목소리를 흉내낼 수 있는 AI 베타버전을 선보였다. 오바마와 트럼프의 '가짜 목소리' 샘플이 공개돼 있다. 가짜 티가 약간 난다.
-라이어버드 측은 "장애인 보조 도구, 원하는 사람의 목소리로 듣는 오디오북, 게임 내레이션 등에 쓰일 것"이라고 밝혔다.
-이들은 "사기, 신원 도용 등 악용 가능성을 안다. 하지만 우리가 아닌 누구라도 이런 기술을 개발할 것"이라며 "목소리도 위조된다는 게 널리 알려져야 '가짜 목소리'의 법적 증거능력이 없어진다. 책임감을 갖고 기술(API)을 세상에 전부 공개할 것"이라고 말했다.
(※위는 트럼프·오바마, 아래는 트럼프·오바마·힐러리 클린턴의 '가짜 목소리'다. 음성 파일 확인 ☞https://news.joins.com/article/23717278)
기업 입장은 뭐야?
-김훈 카카오엔터프라이즈 음성처리파트장은 "현재 기술로는 '미션 임파서블 3'처럼 음성 몇 마디로 타인의 목소리를 완벽하게 흉내내는 것이 불가능하다. 걱정할 수준은 아니다"라고 했다.
앞으로는 어떻게?
-뉴욕타임즈의 TV 다큐멘터리 '더 위클리'는 지난해 11월 AI 개발자들이 유명 팟캐스터 조 로건의 목소리로 만든 1분 44초짜리 위조 음성 영상을 공개했다.
-1월 20일 블룸버그는 AI가 파괴적으로 쓰일 수 있는 두 분야로 '얼굴 인식'과 '딥페이크'를 꼽았다. 이런 말을 인용했다. "기업은 올바른 기술을 만들 책임이 있다. 구글은 '가짜' 콘텐트를 발견할 수 있도록 데이터를 공개하고 있다. (순다 피차이 알파벳·구글 CEO)"
-순다 피차이는 같은 날 파이낸셜타임즈에 "AI에 규제가 필요하다는 것은 의심할 여지가 없다"는 글을 기고했다.
[팩플] "그래서, 팩트(fact)가 뭐야?"
이 질문에 답할 [팩플]을 시작합니다. 확인된 사실을 핵심만 잘 정리한 기사가 [팩플]입니다. [팩플]팀은 사실에 충실한 '팩트풀(factful)' 기사, '팩트 플러스 알파'가 있는 기사를 씁니다. 빙빙 돌지 않습니다. 궁금해할 내용부터 콕콕 짚습니다. '팩트없는 기사는 이제 그만, 팩트로 플렉스(Flex)해버렸지 뭐야.' [팩플]을 읽고 나면 이런 소리가 절로 나오게끔, 준비하겠습니다.
