美國知名投資機(jī)構(gòu)Mangrove Capital Partners在《2019年語音技術(shù)報(bào)告》中,給語音下了一個(gè)宏大的定義——歡迎下一代的顛覆者。
可如果把時(shí)間倒退10年,大部分人還是會(huì)把“語音交互”定義為一場豪賭,都知道贏面比較大,卻遲遲不敢下注,因?yàn)楦拍畹穆涞剡€沒有一個(gè)明確的期限,當(dāng)正確的路徑被走通之前,永遠(yuǎn)都存在不確定性。
不過在此前的80年里,人類對(duì)語音技術(shù)的希望從未破滅,就像是在迷宮中找尋出口一般,一遍又一遍的試錯(cuò),最終找到了正確的路徑。
01 漫長的孩提時(shí)代
“小度小度,明天天氣怎么樣?”“小度小度,我想聽周杰倫的歌” “小度小度,我想給爸爸打電話”,諸如這樣的指令每天有幾億次發(fā)生,哪怕是牙牙學(xué)語的孩子也可以和智能音箱進(jìn)行流暢的對(duì)話。
但在50年前,就職于貝爾實(shí)驗(yàn)室的約翰·皮爾斯卻在一封公開信中為語音識(shí)別下了“死亡診斷書”:就像是把水轉(zhuǎn)化為汽油、從海里提取金子、徹底治療癌癥,讓機(jī)器識(shí)別語音幾乎是不可能實(shí)現(xiàn)的事情。
彼時(shí)距離首個(gè)能夠處理合成語音的機(jī)器出現(xiàn)已經(jīng)過去30年的時(shí)間,距離發(fā)明出能夠聽懂從0到9語音數(shù)字的機(jī)器也過去了17個(gè)年頭。這兩項(xiàng)創(chuàng)造性的發(fā)明均出自貝爾實(shí)驗(yàn)室,但語音識(shí)別技術(shù)的緩慢進(jìn)展,幾乎消磨掉了所有人的耐心。
在20世紀(jì)的大部分時(shí)間里,語音識(shí)別技術(shù)就像是一場不知方向的長征,時(shí)間刻度被拉長到了10年之久:
上世紀(jì)60年代,時(shí)間規(guī)整機(jī)制、動(dòng)態(tài)時(shí)間規(guī)整和音素動(dòng)態(tài)跟蹤三個(gè)關(guān)鍵技術(shù)奠定了語音識(shí)別發(fā)展的基礎(chǔ);
上世紀(jì)70年代,語音識(shí)別進(jìn)入了快速發(fā)展的階段,模式識(shí)別思想、動(dòng)態(tài)規(guī)劃算法、線性預(yù)測編碼等開始應(yīng)用;
上世紀(jì)80年代,語音識(shí)別開始從孤立詞識(shí)別系統(tǒng)向大詞匯量連續(xù)語音識(shí)別系統(tǒng)發(fā)展,基于GMM-HMM的框架成為語音識(shí)別系統(tǒng)的主導(dǎo)框架;
上世紀(jì)90年代,出現(xiàn)了很多產(chǎn)品化的語音識(shí)別系統(tǒng),比如IBM的Via-vioce系統(tǒng)、微軟的Whisper系統(tǒng)、英國劍橋大學(xué)的HTK系統(tǒng);
但在進(jìn)入21世紀(jì)后,語音識(shí)別系統(tǒng)的錯(cuò)誤率依然很高,再次陷到漫長的瓶頸期。直到2006年Hiton提出用深度置信網(wǎng)絡(luò)初始化神經(jīng)網(wǎng)絡(luò),使得訓(xùn)練深層的神經(jīng)網(wǎng)絡(luò)變得容易,從而掀起了深度學(xué)習(xí)的浪潮。
只是在2009年之前70年左右的漫長歲月里,中國在語音識(shí)別技術(shù)上大多處于邊緣角色,1958年中國科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音,1973年中國科學(xué)院聲學(xué)所開始了計(jì)算機(jī)語音識(shí)別,然后是863計(jì)劃開始開始組織語音識(shí)別技術(shù)的研究,直到百度、科大訊飛等中國企業(yè)的崛起。
02 躍進(jìn)的少年時(shí)代
2010年注定是語音識(shí)別的轉(zhuǎn)折點(diǎn)。
前一年Hinton和D.Mohamed將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學(xué)建模,在小詞匯量連續(xù)語音識(shí)別數(shù)據(jù)庫TIMIT上獲得成功。
從2010年開始,微軟的俞棟、鄧力等學(xué)者首先嘗試將深度學(xué)習(xí)技術(shù)引入到語音識(shí)別領(lǐng)域,并確立了三個(gè)維度的標(biāo)準(zhǔn):
數(shù)據(jù)量的多少,取決于搜索量、使用量的規(guī)模;
算法的優(yōu)劣,頂級(jí)人才扮演者至關(guān)重要的角色;
計(jì)算力的水平,關(guān)鍵在于FPGA等硬件的發(fā)展。
在這三個(gè)維度的比拼中,誰擁有數(shù)據(jù)上的優(yōu)勢,誰聚集了頂級(jí)的人才,誰掌握著強(qiáng)大的計(jì)算能力,多半會(huì)成為這場較量中的優(yōu)勝方。于是在語音識(shí)別的“少年時(shí)代”,終于開始了躍進(jìn)式的發(fā)展,刷新紀(jì)錄的時(shí)間間隔被壓縮到幾年到幾個(gè)月。
2016年語音識(shí)別的準(zhǔn)確率達(dá)到90%,但在這年晚些時(shí)候,微軟公開表示語音識(shí)別系統(tǒng)的詞錯(cuò)率達(dá)到了5.9%,等同于人類速記同樣一段對(duì)話的水平,時(shí)任百度首席科學(xué)家吳恩達(dá)發(fā)聲稱百度在2015年末即達(dá)到了同等水平;2017年6月,Google表示語音識(shí)別的準(zhǔn)確率達(dá)到95%,而早在10個(gè)月前的時(shí)候,李彥宏就在百度世界大會(huì)上宣布了百度語音識(shí)別準(zhǔn)確率達(dá)到97%的消息。
一個(gè)有些“奇怪”的現(xiàn)象,為何在語音識(shí)別領(lǐng)域缺少前期積累的中國,可以在極短的時(shí)間內(nèi)實(shí)現(xiàn)從無到有,甚至有后發(fā)先至的趨勢?可以找到的原因有二:
首先,傳統(tǒng)專利池被挑戰(zhàn),競爭回歸技術(shù)。
語音識(shí)別進(jìn)入深度學(xué)習(xí)時(shí)代,并沒有背負(fù)太多的專利包袱,中美玩家們有機(jī)會(huì)站在了同一起跑線上。
比如2013年百度的語音識(shí)別技術(shù)還主要基于mel-bank的子帶CNN模型;2014年就獨(dú)立發(fā)展出了Sequence Discriminative Training(區(qū)分度模型);2015年初推出基于LSTM –HMM的語音識(shí)別,年底發(fā)展出基于LSTM-CTC的端對(duì)端語音識(shí)別系統(tǒng);2016年和2017年將Deep CNN模型和 LSTM、CTC結(jié)合起來,2018年推出Deep Peak 2模型,2019年又發(fā)布了流式多級(jí)的截?cái)嘧⒁饬δP?hellip;…
而在不久前結(jié)束的百度AI開發(fā)者大會(huì)上,百度還推出了針對(duì)遠(yuǎn)場語音交互的鴻鵠芯片,可以實(shí)現(xiàn)遠(yuǎn)場陣列信號(hào)實(shí)時(shí)處理,高精度超低誤報(bào)語音喚醒以及離線語音識(shí)別。
其次,語音識(shí)別進(jìn)入到生態(tài)化、產(chǎn)業(yè)化的時(shí)代。
在Google發(fā)布了語音開放API后,對(duì)Nuance產(chǎn)生了致命的打擊,不僅僅是Google在產(chǎn)品和技術(shù)上的優(yōu)勢,也來自于Google強(qiáng)大的人工智能技術(shù)生態(tài),例如以TensorFlow為代表的深度學(xué)習(xí)引擎。
同樣的邏輯,百度在2015年就開放了上百項(xiàng)智能語音專利,與海爾、京東、中興通訊、中國普天等組建了智能語音知識(shí)產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟,同時(shí)PaddlePaddle、Warp-CTC、百度大腦的開放和開源,對(duì)中文語音識(shí)別有著潛移默化的影響,成為了中國語音識(shí)別領(lǐng)域標(biāo)準(zhǔn)的制定者。
除此之外,2018年公布的第二十屆中國專利評(píng)審結(jié)果中,百度的語音、機(jī)器翻譯、無人車相關(guān)三項(xiàng)專利獲獎(jiǎng),成為人工智能領(lǐng)域至今為止在國內(nèi)專利界獲得的最高級(jí)別政府獎(jiǎng)項(xiàng)。
其中“語音專利”涉及的新語音識(shí)別模型——采用深度學(xué)習(xí)算法在24時(shí)內(nèi)對(duì)數(shù)以百億級(jí)的大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,高性能計(jì)算,令語音識(shí)別技術(shù)的準(zhǔn)確率達(dá)97%,解決了語音識(shí)別領(lǐng)域關(guān)鍵性、共性的技術(shù)難題,被MIT 評(píng)為“2016年全球十大突破技術(shù)”。
語音識(shí)別的話語權(quán),逐漸從大學(xué)和機(jī)構(gòu)的實(shí)驗(yàn)室轉(zhuǎn)移到了微軟、Google、百度等商業(yè)巨擘手中,并最終迎來了躍進(jìn)式發(fā)展的十年。或許語音技術(shù)的“少年時(shí)代”還有很長的路要走,但終究走出了漫漫黑夜,瞥見了黎明的曙光。
03 語音交互的“誘惑”
需要思考這樣一個(gè)問題:為何語音識(shí)別在80年的技術(shù)長征中,出現(xiàn)了這樣或那樣質(zhì)疑的聲音,仍然對(duì)語音識(shí)別如此癡迷?前70年的答案可能是希望,最近10年的驅(qū)動(dòng)因素則可能是龐大蛋糕的誘惑。
先來盤點(diǎn)一下2010年后語音識(shí)別走向應(yīng)用的三個(gè)過程:
一問一答階段:彼時(shí)語音識(shí)別在自我學(xué)習(xí)、邏輯推理方面還有很大欠缺,不能針對(duì)同一對(duì)話內(nèi)容展開深入交互,比如你問天氣如何,系統(tǒng)會(huì)自動(dòng)調(diào)取天氣數(shù)據(jù),接著問明天天氣如何?會(huì)調(diào)取明天的天氣預(yù)報(bào)。但今天天氣和明天天氣之間都是各自獨(dú)立的對(duì)答,不能連接貫通,也未能形成邏輯。
有問有答階段:語音識(shí)別開始在問答的基礎(chǔ)上有了對(duì)話的屬性,對(duì)應(yīng)的產(chǎn)品有蘋果的Siri、Google Now、百度語音、微軟Cortana等等,彼時(shí)仍然停留在“人機(jī)對(duì)話”,處于機(jī)器被動(dòng)接受人類輸入大量數(shù)據(jù)階段,不能更深層次理解人的意思,無法實(shí)現(xiàn)自學(xué)習(xí)、自成長,與機(jī)器的語音交流還不能像人一樣自然。
自然交互階段:從語音識(shí)別到語音交互,不僅有問有答,人工智能還可以根據(jù)上下文邏輯和環(huán)境信息,作出個(gè)性化的決策或推薦。典型的場景就是智能音箱,亞馬遜、谷歌、百度、阿里等無不開始在智能音箱領(lǐng)域發(fā)力,語音識(shí)別入口正逐漸撬開內(nèi)容、IoT等生態(tài),已然是AI入口之爭的主戰(zhàn)場。
印象深刻的是,在《向往的生活》第三季中,幾乎每期嘉賓都會(huì)主動(dòng)和小度對(duì)話,然后被智能音箱流暢的對(duì)答所折服,對(duì)比一些智能手機(jī)里還處于有問有答狀態(tài)的語音助手,自然的語音交互階段已經(jīng)提前到來。
不難從中看到這樣的變化:剛開始的語音識(shí)別還處于造技術(shù)的階段,可能僅僅是為了新奇炫酷的體驗(yàn),但隨著智能音箱、語音助手等軟硬件應(yīng)用的普及,解決了一個(gè)又一個(gè)棘手的痛點(diǎn),語音交互開始有了成為下一代人機(jī)交互方式的可能,進(jìn)而打造一個(gè)以語音為入口的全新操作系統(tǒng)。
可以借鑒腦學(xué)界“感官侏儒”的說法,手和舌頭是人類最靈活的兩個(gè)部分,從DOS系統(tǒng)到施樂的圖形化界面再到移動(dòng)設(shè)備的觸控交互,無不依賴于手的交互。
而當(dāng)語音技術(shù)和人工智能同時(shí)走向成熟,或許就像《2019語音技術(shù)報(bào)告》中所描述的:“語音交互扭轉(zhuǎn)了以往人機(jī)交互的存在形態(tài),用戶與設(shè)備間基于語音交互的全新關(guān)系開始搭建,與之前互聯(lián)網(wǎng)向移動(dòng)互聯(lián)網(wǎng)過渡一樣,其對(duì)底層平臺(tái)的全新需求也在醞釀當(dāng)中。”
甚至不排除語音優(yōu)先的可能,亞馬遜Alexa首席科學(xué)家Rohit Prasad曾直言:“我們希望消除與客戶的摩擦,最自然的方式就是通過聲音。它不僅僅是一個(gè)能提供一堆結(jié)果的搜索引擎,它還會(huì)告訴你答案。”言外之意,語音技術(shù)可以幫助人們擺脫文字和屏幕的束縛,提供一種升維的用戶體驗(yàn)。
04 巨頭們的新戰(zhàn)場
接過前輩們的衣缽,Google、百度等巨頭并非沒有“私心”。因?yàn)樵谡Z音交互成為人機(jī)交互主流方式的同時(shí),也在重構(gòu)現(xiàn)有的商業(yè)規(guī)則。正如李彥宏在《人民日報(bào)》發(fā)表的文章中所說,“作為引領(lǐng)此次變革的戰(zhàn)略性技術(shù),人工智能對(duì)世界的影響將遠(yuǎn)超以往歷次工業(yè)革命。”
比如在觸控交互的世界里,人們與服務(wù)的連接通過這樣或那樣的App,生活中也出現(xiàn)了社交、搜索、電商、資訊等領(lǐng)域的諸多超級(jí)App,但語音交互是典型的服務(wù)找人,諸如搜索、電商、社交、廣告等主流的盈利路徑都將被重構(gòu),乃至顛覆現(xiàn)有的市場格局。
一個(gè)典型的例子,不管是國內(nèi)百度的小度助手,還是Google Assistant、亞馬遜Alexa,早已不再滿足于“語音助手”的身份,在功能上開始向語音對(duì)話、內(nèi)容服務(wù)、IoT設(shè)備管理等方向演進(jìn),在場景上覆蓋了家庭、汽車、酒店等等,以語音交互為切入的生態(tài)系統(tǒng)早已有了雛形,成為觸控之外的又一個(gè)殺手級(jí)應(yīng)用。
同時(shí)語音的顛覆性也逐漸浮出水面,原先想要聽一首歌、看一部電影的時(shí)候,需要在手機(jī)上打開特定的App,手動(dòng)輸入歌曲或電影的名字,在一連串的搜索結(jié)果中找到自己需要的。語音交互的場景下,只需要發(fā)出相應(yīng)的語音指令,設(shè)備就可以自動(dòng)播放你想要的歌曲或視頻,不僅在效率上指數(shù)級(jí)提升,也在改變音樂或視頻服務(wù)方的地位,從前端走向后臺(tái)的內(nèi)容供應(yīng)商。
截止到目前,幾乎所有的互聯(lián)網(wǎng)巨頭都對(duì)語音勢在必得,尤其是在炙手可熱的智能音箱賽道上,國外出現(xiàn)了谷歌、亞馬遜、蘋果等巨頭林立的局面,國內(nèi)的百度、阿里、小米直接拿到了90%的市場份額,并且有著一家獨(dú)大的趨勢。
在美國,亞馬遜占據(jù)了智能音箱64.6%的份額,而在國內(nèi),StrategyAnalytics、Canalys和IDC無不在報(bào)告中指出了這樣的事實(shí):去年才正式發(fā)力智能音箱的百度,早已成為世界前三、中國第一的品牌。
特別是隨著語音技術(shù)的持續(xù)深入,巨頭們也開始改變自己的戰(zhàn)略路線,百度就是一個(gè)特例。
2016年就在內(nèi)部形成了“夯實(shí)移動(dòng)基礎(chǔ),決勝AI時(shí)代”的驅(qū)動(dòng)戰(zhàn)略,并確立了AIfirst的公司架構(gòu),相繼打造了包括語音技術(shù)、圖像技術(shù)、視頻技術(shù)、NLP、知識(shí)圖譜、數(shù)據(jù)智能以及深度學(xué)習(xí)等技術(shù)研線的AIG,涵蓋全自動(dòng)駕駛、智能輔助駕駛以及車聯(lián)網(wǎng)業(yè)務(wù)的AIG,業(yè)務(wù)范圍涉及小度助手、智能音箱等軟硬件語音技術(shù)的SLG。
如此,語音技術(shù)不僅為人機(jī)交互提供了新的可能,也在一定程度上成了巨頭從互聯(lián)網(wǎng)跨向AI賽道的“引路人”。
如果以2019年作為新起點(diǎn)的話,語音識(shí)別已經(jīng)從雙翼飛機(jī)時(shí)代進(jìn)入噴氣式飛機(jī)時(shí)代,下一步的目標(biāo)無疑就是成為火箭級(jí)的產(chǎn)品。幸運(yùn)的是,在這場決定著未來科技生態(tài)的戰(zhàn)場上,中國的玩家不再缺席,而是從跟隨者變成了領(lǐng)導(dǎo)者。
作者 | Alter 公眾號(hào) | Alter聊IT 作者系獨(dú)立撰稿人,微信號(hào)imhefei
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!
11月26日,Aqara綠米粉絲節(jié)“AqaraMagicDay”順利舉辦完成,Aqara綠米攜手IBR(深圳市建筑科學(xué)研究院股份有限公司,下簡稱“建科院”)給粉絲開啟了一場綠色未來體驗(yàn)之旅,讓粉絲們感受到雙碳時(shí)代大背景下的綠色建筑魅力。在粉絲的見證下,雙方也啟動(dòng)了面向未來、探索綠色生活的全面戰(zhàn)略合作
我們對(duì)語音助手有怎樣的期待?當(dāng)然要夠聰明,最好還會(huì)“讀心術(shù)”,無需多說一句就能懂我所想,主動(dòng)提供服務(wù)。這并非不可能。在11月4日舉行的華為開發(fā)者大會(huì)2022上,華為面向外界分享了鴻蒙生態(tài)的最新成果
2022年10月1日,無錫地鐵三陽廣場站正式上線了“全場景智能語音客服中心”服務(wù)功能,為乘客提供集語音咨詢、語音購票、自助票務(wù)處理、自助退單程票、遠(yuǎn)程音視頻在線求助等“一條龍”自助服務(wù),方便又快捷。
引言語音合成(Text-to-Speech,TTS)是指文字轉(zhuǎn)語音相關(guān)技術(shù)。隨著人工智能技術(shù)的發(fā)展,TTS的聲學(xué)模型和聲碼器模型效果都在不斷提高,單一語言在數(shù)據(jù)量足夠的情況下已經(jīng)可以合成較高品質(zhì)的語音
2022年9月18日-22日,全球語音領(lǐng)域頂級(jí)會(huì)議INTERSPEECH2022在韓國仁川舉辦?!霸浦?上師大自然人機(jī)交互”聯(lián)合實(shí)驗(yàn)室攜提出的關(guān)于聲音事件檢測、單通道語音增強(qiáng)方向的2篇論文參會(huì)。
蘋果16弄了兩個(gè)版本,一個(gè)是專門給中國人用的,準(zhǔn)備用百度的AI,還要交錢。第二個(gè)是全世界都可以用的,用了ChatGPT,包括臺(tái)灣、香港、澳門都可以用。以后都這樣了。好,問題就出在這,蘋果和百度的合作出現(xiàn)問題了,新聞連起來看,才能明白其中含義。新聞一:蘋果正在和騰訊、字節(jié)初步接洽,考慮將二者的AI模型
“技術(shù)日新月異,人類生活方式正在快速轉(zhuǎn)變,這一切給人類歷史帶來了一系列不可思議的奇點(diǎn)。我們曾經(jīng)熟悉的一切,都開始變得陌生?!庇?jì)算機(jī)之父約翰·馮·諾依曼曾這樣說到。
“人工智能的商業(yè)模式,是要?jiǎng)?chuàng)造一個(gè)市場,而非一個(gè)算法”。這是世界AI泰斗MichaelI.Jordan的觀點(diǎn)。而當(dāng)前的全球AI市場,占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個(gè)方向,或許已經(jīng)無法直接進(jìn)行排位先后、優(yōu)
智能體進(jìn)化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實(shí)在智能最新發(fā)布的實(shí)在Agent7.0,看RPAAgent的迭代升級(jí)抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實(shí)現(xiàn)了流程全自動(dòng)化AIAgent構(gòu)建到執(zhí)行全自動(dòng)化,持續(xù)進(jìn)化RPAAgent再次降低智能體應(yīng)用門檻實(shí)在智能重磅發(fā)布實(shí)
崔大寶|節(jié)點(diǎn)財(cái)經(jīng)創(chuàng)始人進(jìn)入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動(dòng)了,英偉達(dá)股價(jià)動(dòng)輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費(fèi)市場,BATH們的推新活動(dòng)少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動(dòng)宣布“以厘計(jì)費(fèi)”,打響國內(nèi)大模型
文|智能相對(duì)論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個(gè)數(shù)字人。圖片來源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來越多的傳統(tǒng)企業(yè)和機(jī)構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄
黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過中國證監(jiān)會(huì)IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計(jì)籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級(jí)輔助駕駛(ADAS)和高階自動(dòng)駕駛(AD)解決方案供
8月21日,萬眾矚目的2024世界機(jī)器人大會(huì)暨博覽會(huì)在北京亦創(chuàng)國際會(huì)展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機(jī)器人盛會(huì),反映了當(dāng)下機(jī)器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計(jì)數(shù)據(jù),今年現(xiàn)場逛展觀眾高達(dá)25萬人次,比去年增加25%。機(jī)器人行業(yè)有多火?看看2024世界機(jī)器人大會(huì)火爆程度便可知