引言語音合成(Text-to-Speech, TTS)是指文字轉(zhuǎn)語音相關(guān)技術(shù)。隨著人工智能技術(shù)的發(fā)展,TTS 的聲學(xué)模型和聲碼器模型效果都在不斷提高,單一語言在數(shù)據(jù)量足夠的情況下已經(jīng)可以合成較高品質(zhì)的語音。研究人員們也逐漸開始關(guān)注跨語言語音合成領(lǐng)域,本文介紹網(wǎng)易游戲廣州 AI Lab 在 Interspeech 2022 中發(fā)表的一篇跨語言語音合成論文《Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech》,該論文提出了音素長度調(diào)節(jié)模塊來解決 IPA 序列與單語言對齊系統(tǒng)對齊結(jié)果的不匹配問題,同時使用了基于 Fastpitch 的非自回歸聲學(xué)模型,實驗結(jié)果表明了訓(xùn)練集說話人數(shù)量的增加、音高和能量的顯示建模(主要是音高)都有助于非自回歸跨語言 TTS 中說話人音色和語言的信息解耦。
論文標(biāo)題:Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech論文鏈接:https://arxiv.org/abs/2110.07192演示網(wǎng)址:https://hyzhan.github.io/NAC-TTS/論文相關(guān)背景目前跨語言TTS的主要實現(xiàn)方法有:跨語言中間特征、跨語言文本表示、對抗式訓(xùn)練、發(fā)音單元設(shè)計、跨語言文本處理模型等。更多相關(guān)背景知識及發(fā)展概述可閱讀:《跨語言語音合成方法的發(fā)展趨勢與方向》,本文不再贅述。近年來,F(xiàn)astSpeech、FastPitch、FastSpeech2 等非自回歸聲學(xué)模型除了在語音生成速度上表現(xiàn)出巨大優(yōu)勢,生成語音自然程度也越來越高,相關(guān)論文作者試圖在跨語言語音合成系統(tǒng)中使用非自回歸聲學(xué)模型,但是由于典型的非自回歸聲學(xué)模型需要加入顯式的音素發(fā)音時長進行模型訓(xùn)練,這會導(dǎo)致模型增加使用 IPA 這類跨語言文本表示的難度(因為這樣會需要有一個跨語言的文本語音對齊系統(tǒng))。該論文提出了音素長度調(diào)節(jié)模塊來避免這個問題,同時還在 FastPitch 的基礎(chǔ)上加入了 energy predictor,評估了訓(xùn)練數(shù)據(jù)集說話人數(shù)量、不同模塊及文本表示、是否使用對抗訓(xùn)練對說話人音色解耦的影響。方法概述首先基于開源字典 [1]構(gòu)造一個自定義的字典,將語言相關(guān)的音素轉(zhuǎn)換(LDP)為 IPA 表示,其中語言相關(guān)的音素集在中文中為拼音,在英文中為 Aprabet 表示,將 IPA 音素序列及其對應(yīng) LDP 的音素長度輸入到上圖的 Phoneme Length Regulator,即可實現(xiàn)輸入表示序列與單語言對齊系統(tǒng)得到的發(fā)音時長相匹配,進而完成聲學(xué)模型的訓(xùn)練。以下圖中的 “Steins Gate 的選擇”為例,“Steins Gate” 對應(yīng)的 Aprabet 表示為:S T AY1 N Z,“的選擇”對應(yīng)的拼音為:d e0 x uan3 z e2;根據(jù)前面構(gòu)造的自定義字典將語言相關(guān)的音素(LDP)轉(zhuǎn)換為對應(yīng)的 IPA 字符及其 IPA 字符數(shù)量;通過 embedding 的方式將 IPA 字符映射成對應(yīng)的 IPA embedding 序列,并基于 LDP 對應(yīng)的 IPA 字符數(shù)量對 IPA embedding 序列進行聚合得到,LDP 級別的 embedding 序列。各個序列的長度約束關(guān)系見參考論文 2.2 節(jié),總的來說就是用變長的 phoneme length 來控制需要聚合的 IPA embedding 序列數(shù)量,以此來表示對應(yīng)的 LDP embedding,從而讓 IPA 序列可以使用單語言對齊的音素時長信息,完成整個模型的訓(xùn)練。
聲學(xué)模型框架上是基于 Fastpitch 的聲學(xué)模型加入了 energy predictor 模塊,再結(jié)合了論文提出的 Phoneme Length Regulator 模塊。還有一個區(qū)別就是論文的 speaker embedding 是加在 encoder output 的,而不是常見的 encoder input,以及在預(yù)測 variance predictor 的時候?qū)斎脒M行了 detach 操作來避免時長、音高、能量預(yù)測對 encoder 的潛在影響。
實驗
論文實驗主要涉及中文和英文,中文數(shù)據(jù)集為開源的標(biāo)貝女聲及內(nèi)部數(shù)據(jù)集,英文數(shù)據(jù)集為開源的 LJSpeech 及 CMU arctic 數(shù)據(jù)集。作者構(gòu)造了三種性別平衡及語言平衡的數(shù)據(jù)集進行實驗,表 1 描述了各個子數(shù)據(jù)集的構(gòu)成情況:d1:中文男聲 5 小時,英文女聲 5 小時;d2:中文女聲 1 小時,英文男聲 1 小時;d3:中文男女聲各 1 小時,英文男女聲各 1 小時,通過逐步增加訓(xùn)練集規(guī)模來進行相關(guān)實驗,評測階段僅使用 d1 中的 LJSpeech 的英文女聲及內(nèi)部數(shù)據(jù)集的中文男聲進行評測。4.1 說話人數(shù)量的影響
論文首先研究了訓(xùn)練集中包含不同數(shù)量的說話人時,說話人和語言信息之間的糾纏情況。其中 d1 有 2 個說話人,d1+d2 有 4 個說話人,d1+d2+d3 有 8 個說話人,均為性別及語言平衡的數(shù)據(jù)集。表 2 評估了 d1 數(shù)據(jù)集中文男聲在純中文、純英文和中英混合句子的語音自然程度及相似度。可以發(fā)現(xiàn),d1 訓(xùn)練集中,中文男聲在中文語音上表現(xiàn)最好,中英混合語音表現(xiàn)次之,純英文表現(xiàn)最差,尤其是純英文的相似度指標(biāo)上。這意味著訓(xùn)練集中一種語言只有一個說話人,對提升目標(biāo)說話人的跨語言發(fā)音能力幫助有限;同時作者也推測雖然 IPA 符號可以用在所有語言上,但是依舊存在某種語音有一些獨有的 IPA 符號的情況,從而在這種一種語言只有一個說話人的訓(xùn)練集上導(dǎo)致了說話人音色信息和語言信息的混淆。另一方面,隨著訓(xùn)練集兩種語言說話人數(shù)量的增加,在跨語言語音場景下,中文男聲說話人的 Naturalness 及 Similarity 主觀評分均出現(xiàn)了較明顯的提高,Naturalness 主觀評分的方差也逐漸在減小。這說明了訓(xùn)練集中說話人的多樣性不僅有利于說話人音色信息和語言信息的解耦,還有利于提高非自回歸跨語言 TTS 模型的穩(wěn)定性。因此,后續(xù)實驗均基于 d1+d2+d3 的數(shù)據(jù)集進行。4.2 對比實驗
論文選擇了 3 個對比模型,一個是基于 IPA 表示 Tacotron 聲學(xué)模型框架的 Tacotron-based,二是基于 LDP 表示和 GRL(gradient reversal layer)Fastspeech 聲學(xué)模型框架的 FastSpeech-LDP,三是將 FastSpeech-LDP 中的 LDP 表示替換為本文中的 IPA 表示加 Phoneme Length Regulator 模塊的方法,最后則是本文提出的模型框架??偟膩碚f,在本實驗中幾個非自回歸模型的表基本都好于 Tacotron-based;對比 FastSpeech-LDP 和 FastSpeech-IPA 中英說話人在三種類型文本的Naturalness和Similarity指標(biāo),兩者的 Naturalness 基本接近,不過 FastSpeech-IPA 在大部分情況取得了更高的 Similarity 主觀評分,這表明 IPA 表示加上 Phoneme Length Regulator 模塊的實現(xiàn)可以幫助模型學(xué)習(xí)不同語言的發(fā)音。然而,本文提出的模型在跨語言場景的表現(xiàn)明顯優(yōu)于 FastSpeech-LDP 及 FastSpeech-IPA,這說明使用 variance adaptors 有助于提高跨語言語音合成模型的性能表現(xiàn),雖然 variance adaptors 本身是作為解決語音合成中的“一對多”問題提出的,但是實驗表明了對語音的韻律特征進行顯示建模有助于說話人和語言信息的解耦。4.3 消融實驗
論文 做了三組消融實驗來評估 GRL 梯度反傳層、pitch predictor、energy predictor 對 proposed model 的影響。實驗表明,GRL 的引入并沒有帶來收益,一方面可能是 IPA 表示加上說話人多樣性的引入已經(jīng)能較好地對說話人音色信息和語言信息進行解耦,另一方面可能是因為 GRL 中的超參數(shù)較為敏感,暫不適用于本文提出的模型。去掉 pitch predictor 和 energy predictor 導(dǎo)致了語音自然程度和相似度有較明顯的惡化(尤其是 pitch predictor),這表明了在 variance predictor 的有效性??偨Y(jié)論文提出了 Phoneme Length Regulator 模塊,使得非自回歸跨語言 TTS 模型中的 IPA 表示與單語言強制對齊信息可以同時使用;構(gòu)造了一個不需要對抗式訓(xùn)練、基于 IPA 表示的 Fastpitch-based 模型,取得了不錯的語音自然程度及說話人相似度。論文實驗表明說話人多樣性、IPA 表示、variance adaptors 都能夠幫助非自回歸跨語言 TTS 模型解耦說話人和語言信息。本文通過引入一個較為簡單的方法使其可以利用單語言強制對齊信息和 IPA 表示,再加上說話人多樣性和 variance adaptors 引入,已經(jīng)可以在不使用常見對抗式訓(xùn)練的方式在跨語言語句上取得不錯的語音自然程度及說話人相似度。另外,第一版論文和演示網(wǎng)頁還展示了對中式英文發(fā)音可控性的潛力,如果有 PLR 模塊的示例代碼會更好一些,不過本身思想也不算復(fù)雜,實現(xiàn)難度不大,從實驗結(jié)果來看,總體上是一個邏輯通順、簡單又有效的解決方案。(作者:音月)
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!