看似福音的AI配音，也會(huì)邪魅一笑

2018-05-09 10:18 來源：A5專欄我來投稿撤稿糾錯(cuò)

文 | 楊蘇穎

來源 | 智能相對論

在前文字時(shí)代，聲音曾經(jīng)是人類唯一的交流工具。由于聲音的傳播距離非常有限，所以那個(gè)時(shí)候人類的生存以“部落”為單位，關(guān)系十分緊密。后來隨著傳播媒介的一步步發(fā)展，我們開始不再需要彼此近距離交流就能獲得大量信息，反而，卻開始突然懷念單一的聲音帶給我們的感覺，這種最原始的媒介承載著人類最充沛的情感。

今年1月份，世界首部利用人工智能模擬人聲的紀(jì)錄片在央視播出，而這部名為《創(chuàng)新中國》的紀(jì)錄片解說詞卻全程是由在2013年就“已逝”的聲音完成的。這個(gè)奇跡的背后是科大訊飛利用語言合成技術(shù)成功幫AI模擬出了我國已故著名配音演員，語言藝術(shù)家李易的聲音。

科大訊飛強(qiáng)勁的語言合成技術(shù)讓AI模擬的聲音成功打動(dòng)了李易老師的學(xué)生、朋友和家人。在AI自然流暢的語言解說當(dāng)中，似乎還能再見故人的音容笑貌?？拼笥嶏w這項(xiàng)語音合成技術(shù)主要由三個(gè)步驟構(gòu)成：

一是輸入文本，讓機(jī)器模擬人對自然語言的理解過程，對文本進(jìn)行語言處理，主要包括文本規(guī)整、詞語切分、語法語義分析，然后給出后續(xù)步驟所需要的發(fā)音提示；

二是規(guī)劃音段特征，比如音調(diào)、音長、音重等等，讓機(jī)器可以對語言的特有韻律進(jìn)行處理，使機(jī)器模擬的聲音更自然并且更準(zhǔn)確地傳達(dá)實(shí)際語義。

最后根據(jù)前兩部分處理的結(jié)果進(jìn)行語音合成即可。通過這幾個(gè)步驟，AI模擬的聲音與人聲已經(jīng)非常相似，即使是最熟悉的人在某些情況下也很難分辨機(jī)器人與人聲的界限。

AI配音拉動(dòng)的兩駕“馬車”

那么這么驚艷的人工智能配音技術(shù)，它的邊界究竟能夠延伸到多遠(yuǎn)的地方呢？智能相對論分析師楊蘇穎就此提出了人工智能配音的兩個(gè)用武之地。

1、“粉絲經(jīng)濟(jì)”向AI配音伸出“橄欖枝”？

“粉絲經(jīng)濟(jì)”已經(jīng)成為現(xiàn)在文娛產(chǎn)業(yè)經(jīng)濟(jì)增長的主要支柱之一。隨著最近養(yǎng)成類偶像節(jié)目的火爆，粉絲對明星投入的情感越來越多，隨之帶動(dòng)這個(gè)群體為明星付費(fèi)的意愿同樣水漲船高。網(wǎng)傳范冰冰弟弟范丞丞在新浪微博發(fā)布付費(fèi)閱讀的自拍，一夜徒手狂賺幾百萬（后遭到經(jīng)紀(jì)人否認(rèn)）。既然，明星的周邊如此火爆，何不運(yùn)用配合人工智能語音合成的VR、AR技術(shù)來打造的虛擬范丞丞們，讓他們更真實(shí)地出現(xiàn)在粉絲的日常生活當(dāng)中呢？要深挖中國的粉絲潛力，比起像騰訊視頻之前在明日之子上打造虛擬二次元偶像“荷茲”，聽著現(xiàn)實(shí)當(dāng)中熟悉的偶像聲音叫自己起床，陪自己聊天，這樣的虛擬真人版偶像或許更能得到粉絲認(rèn)可。

2、AI配音是音也是“藥”

據(jù)國外媒體報(bào)道，有研究表明，年邁夫婦可能因?yàn)橐环絾逝级龃笏劳雎?，這種現(xiàn)象被稱為“心碎綜合癥”。這項(xiàng)研究由哈佛大學(xué)和威斯康斯大學(xué)麥迪遜分校的兩位科學(xué)家負(fù)責(zé)，研究結(jié)果顯示，男性喪妻后“全因死亡率”的概率增大了18%，女性喪夫后“全死因死亡率”的概率增大了16%。并且我們還可以做一個(gè)合理推斷，在其他喪子或者喪雙親的情況下，這種“心碎綜合癥”的表現(xiàn)也一定存在，比如在唐山大地震和汶川地震之后。心理學(xué)家表示，要想修復(fù)這種創(chuàng)傷是非常困難的。但是人工智能配音的AI或許可以做到呢，它能夠利用過去已有的音頻合成親人的聲音，如果心理醫(yī)生說的話能夠用親人的聲音來傳達(dá)，也許可以幫助病人更快地走出陰霾。

AI 配音在舞臺(tái)上也會(huì)唱“黑臉”

但是，一切技術(shù)都是刀子的翻版，人工智能配音技術(shù)解決問題的同時(shí)也會(huì)引發(fā)新的問題，智能相對論分析師楊蘇穎認(rèn)為，這項(xiàng)技術(shù)在廣泛落地之前還要接受不少拷問。

1、AI盜用聲音卻能“無罪釋放”？

手機(jī)里高德地圖我們足夠熟悉，但大家不知道的可能是其導(dǎo)航應(yīng)用所采用林志玲聲音其實(shí)部分是采用了人工智能配音技術(shù)后期合成的。那么大家可能覺得語音合成必須得提前去技術(shù)公司錄制這樣一段純凈的聲音。

但是事實(shí)上，語音合成卻對音頻質(zhì)量沒有那么高的要求，利用海量的互聯(lián)網(wǎng)音頻也可以實(shí)現(xiàn)人聲模仿。Google Research軟件工程師發(fā)表論文《Looking to Listen atthe Cocktail Party》采用的全新視聽模型可以在不同噪音之中，把重疊的人聲分離出來，形成每一位說話者單獨(dú)純凈的音頻信號(hào)。同時(shí)，訊飛也提出以全自動(dòng)無監(jiān)督方法快速得到單個(gè)目標(biāo)發(fā)音人的純凈音庫。

之前伯明翰阿拉巴馬大學(xué)的一項(xiàng)調(diào)查表明，如果給予AI的的信息足夠多，它可以生成任何人以假亂真的圖片或者視頻?，F(xiàn)在個(gè)人的聲音已經(jīng)越來越成為個(gè)人身份的標(biāo)志之一，對個(gè)人聲音利益的侵害也同肖像一樣可能造成個(gè)人人格尊嚴(yán)和財(cái)產(chǎn)利益上的損失。我們知道明星的形象擁有肖像權(quán)，如果他們的照片被他人私自用作商業(yè)用途時(shí)，他們可以一紙?jiān)V狀將別人告上法庭維護(hù)自己的肖像權(quán)。但是目前在我國立法界及學(xué)界對聲音權(quán)的保護(hù)卻仍無統(tǒng)一定論，如果個(gè)人的聲音被別人盜用是沒有法律能夠?qū)ζ溥M(jìn)行保護(hù)的。

2、AI配音攪局聲紋識(shí)別

大家可能聽說過聲紋鑒定，一般來說人的發(fā)聲具有特定性和穩(wěn)定性，雖不能說完全達(dá)到了指紋那樣精確的程度，卻仍然有越來越多國家已經(jīng)把聲紋鑒定作為辨認(rèn)犯罪嫌疑人的重要手段。

但在GeekPwn2017國際安全極客大賽上，白帽黑客們卻上演了一場與聲紋識(shí)別的對弈?，F(xiàn)場5組選手有4組根據(jù)《王者榮耀》里英雄妲己的聲音樣本，利用AI語音合成技術(shù)模擬妲己聲音通過“聲紋鎖”的驗(yàn)證，成功欺騙了語音驗(yàn)證系統(tǒng)，這意味著利用個(gè)人聲音驗(yàn)證身份可能沒那么靠譜。

“聲紋識(shí)別”在現(xiàn)實(shí)當(dāng)中用途十分廣泛，離我們最近的有手機(jī)聲紋解鎖，另外，在智能家居產(chǎn)品當(dāng)中，以及公共安全領(lǐng)域，它也有許多落地點(diǎn)。但是當(dāng)聲紋識(shí)別碰上了AI語音合成技術(shù)，一場智能的博弈就開始了，一不小心就會(huì)打開個(gè)人隱私安全的潘多拉魔盒。AI語音合成技術(shù)越高明，挾持該技術(shù)的人就能越輕而易舉的闖入你的生活。

此外，在警察偵查工作中，原本進(jìn)行聲紋分析可以判斷說話人的性別、年齡、方言（生活地區(qū)）等特征為偵查提供方向和范圍，但 AI配音的干擾要求刑偵手段需迅速跟上科技發(fā)展的步伐，否則聲紋鑒定的有效性就會(huì)受到普遍質(zhì)疑，司法判決的過程也會(huì)變得異常艱難，這無疑是為犯罪者提供了另一層保護(hù)傘。

3、AI能不能別老和藝術(shù)家杠上？

AI配音在《創(chuàng)新中國》中的表現(xiàn)非常令人吃驚，人類激動(dòng)的眼淚印證了語音合成技術(shù)的成功。因此，不禁有人發(fā)問，AI配音如果在行業(yè)里廣泛應(yīng)用會(huì)否取代傳統(tǒng)的配音演員呢？配音演員由四字組成，不僅重在“配音”，其實(shí)亦重在“演員”。今年年初口碑爆棚的綜藝《聲臨其境》在展示了優(yōu)秀演員的配音功力同時(shí)，也讓觀眾看到在配音間里，配音者不僅僅是提供聲音，更要演戲。因?yàn)榕湟舯仨氁蟿”窘巧那榫w，甚至包括呼吸的頻率都要對得上。

目前要建立機(jī)器的情感識(shí)別系統(tǒng)已經(jīng)非常困難，機(jī)器深度學(xué)習(xí)需要大量數(shù)據(jù)進(jìn)行量化分析，而人類情感是最難以被量化的存在。所以更別說讓機(jī)器去生產(chǎn)情感從而進(jìn)行配音表演。配音演員和演員這兩種職業(yè)本就異曲同工，所以AI配音取代傳統(tǒng)配音演員獨(dú)立參與影視劇制作是不可能的。

不過，AI配音代替游戲配音和讀書配音倒是不錯(cuò)的選擇。像四平八穩(wěn)的紀(jì)錄片一樣，這類配音并不需要調(diào)動(dòng)太多的情感，就算人工智能配音需要存在幾種不同的感情色彩，機(jī)器學(xué)習(xí)的量也在可控制的范圍之內(nèi)，不會(huì)像影視劇那樣復(fù)雜。

在AI配音這件事情上，有人拍案叫絕，有人憂心忡忡。技術(shù)善論技術(shù)惡論的對峙不會(huì)停止，但是只要控制的閥門還掌握在人類的手中，一切就不會(huì)那么糟。

【完】

智能相對論：深挖人工智能這口井，評(píng)出咸淡，講出黑白，道出vb深淺。重點(diǎn)關(guān)注領(lǐng)域：AI+醫(yī)療、機(jī)器人、智能駕駛、AI+硬件、物聯(lián)網(wǎng)、AI+金融、AI+安全、AR/VR、開發(fā)者以及背后的芯片、算法、人機(jī)交互等。

申請創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！