DAV首頁(yè)
數字音視工程網(wǎng)

微信公眾號

數字音視工程網(wǎng)

手機DAV

null
null
null
卓華,
招商,
null
null
null
快捷,
null

我的位置:

share

語(yǔ)音識別技術(shù)之自適應技術(shù)

來(lái)源:網(wǎng)絡(luò )        編輯:ZZZ    2024-02-22 10:05:56     加入收藏    咨詢(xún)

咨詢(xún)
所在單位:*
姓名:*
手機:*
職位:
郵箱:*
其他聯(lián)系方式:
咨詢(xún)內容:
驗證碼:
不能為空 驗證碼錯誤
確定

  1. 語(yǔ)音識別技術(shù)中的自適應技術(shù)簡(jiǎn)介

  語(yǔ)音識別中的自適應,即針對某一個(gè)說(shuō)話(huà)人或者某一domain來(lái)優(yōu)化語(yǔ)音識別系統的識別性能,使得識別系統對他們的性能有一定的提升。語(yǔ)音識別的自適應技術(shù)的目的是為了減少訓練集和測試集說(shuō)話(huà)人或者domain之間差異性造成的語(yǔ)音識別性能下降的影響。這種差異性主要包括語(yǔ)音學(xué)上的差異還有生理上發(fā)音習慣上不同導致的差異性等等。自適應技術(shù)主要被應用于語(yǔ)音識別技術(shù)相關(guān)的產(chǎn)品,還有針對VIP客戶(hù)的語(yǔ)音識別等。

  上述的差異性問(wèn)題,它容易造成說(shuō)話(huà)人或者domain無(wú)關(guān)的識別系統性能上不好,但是如果針對該說(shuō)話(huà)人或者domain訓練一個(gè)相關(guān)的識別系統,那么需要收集很多數據,這個(gè)成本是很高的。而語(yǔ)音識別中的自適應技術(shù)作為一種折中,它的數據量較少,并且性能上也能達到較好的效果。

  語(yǔ)音識別中的自適應技術(shù)有很多,根據自適應的空間,可以分成兩類(lèi):特征空間自適應和模型空間自適應。對于特征空間自適應來(lái)說(shuō),它試圖將相關(guān)的特征通過(guò)特征轉換成無(wú)關(guān)的特征,從而能夠和無(wú)關(guān)的模型相匹配。而對于模型空間的自適應來(lái)說(shuō),它試圖將無(wú)關(guān)的模型轉換成相關(guān)的模型,從而能夠和相關(guān)的特征相匹配??偠灾?,這兩類(lèi)算法目的是為了讓相關(guān)的特征與無(wú)關(guān)的模型相匹配。

  2. INTERPSEECH 2017 paper reading

  2.1 Paper 1

  第一篇文章的題目是Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition,它來(lái)自蒙特利爾大學(xué)。這篇文章的主要思想是將layer normalization的scale和shift兩個(gè)參數由上下文無(wú)關(guān)的變成上下文相關(guān)的,從而根據上下文信息來(lái)獲得動(dòng)態(tài)的scale和shift。這是一種模型空間的自適應。它的主要創(chuàng )新的地方主要是,它不需要自適應階段(自適應階段就是使用目標 domain的數據進(jìn)行自適應,從而能夠學(xué)習到目標domain的知識),另外,它同樣不需要提供包含說(shuō)話(huà)人信息的相關(guān)特征,例如i-vector等等。

  DLN對應的公式如上圖右邊所示,首先,取前一層的minibatch ( TT )大小的隱層矢量或者輸入矢量hl−1thtl−1進(jìn)行summarization,從而獲得alal。然后,通過(guò)線(xiàn)性變換矩陣和偏置來(lái)動(dòng)態(tài)地控制scale ( αlgαgl )和shift ( βlgβgl )。

  同時(shí),在原來(lái)的CE訓練的基礎上,在目標函數上增加一個(gè)懲罰項(上圖的右下角LvarLvar),用于增加句子內的variance,從而summarization出來(lái)的信息會(huì )更加具有區分性。

  這篇paper主要是在81小時(shí)的WSJ以及212小時(shí)的TED數據集上進(jìn)行實(shí)驗,WSJ的訓練集包含283個(gè)說(shuō)話(huà)人,TED的訓練集包含5076個(gè)說(shuō)話(huà)人。

  首先,在WSJ數據集上對比LN和DLN之間的性能,性能主要包括開(kāi)發(fā)集和測試集的FER和WER(FER表示幀錯誤率,WER表示詞錯誤率)??梢钥闯?,除了測試集WER外,DLN均優(yōu)于LN。文章分析,這是由于WSJ的說(shuō)話(huà)人數目較少,導致句子間的差異性不明顯,同時(shí)WSJ數據集是在安靜環(huán)境下錄制的,句子都比較平穩,DLN不能夠起作用。

  在TED數據集上的結果如第二個(gè)表格所示,發(fā)現在四個(gè)性能參數下,DLN均優(yōu)于LN。文章對比WSJ和TED數據,TED數據集能夠取得比較好的性能的原因是,TED數據集較WSJ speaker數目更多,句子數更多,variability更加明顯。通過(guò)這篇文章,我們可以發(fā)現這種動(dòng)態(tài)的LN與句子的variability相關(guān)。并且總體上看來(lái),DLN是要優(yōu)于LN。

  2.2 Paper 2

  第二篇文章的題目是Large-Scale Domain Adaptation via Teacher-Student Learning,它來(lái)自微軟。這篇文章的主要思想是通過(guò)teacher/student的結構來(lái)進(jìn)行domain adaptation。這種方法不需要目標 domain的帶標注的數據。但是,它需要和訓練集相同的并行數據。它的創(chuàng )新點(diǎn)和價(jià)值主要在于,這種方法可以使用非常多的無(wú)標注數據,同時(shí)借用teacher network的輸出來(lái)進(jìn)一步提升student模型的性能。

  將teacher/student 簡(jiǎn)稱(chēng)為T(mén)/S。T/S的訓練流圖如上圖右邊所示。Figure 1 中的左側為teacher network,右側為student network,它們的輸出后驗概率分別設為PTPT和PSPS。

  student network的訓練過(guò)程:首先,將teacher network復制一份作為student network的初始化。然后,利用student domain data和teacher domain data通過(guò)對應的網(wǎng)絡(luò )獲得相應的后驗概率PTPT和PSPS。最后,利用這兩個(gè)后驗概率計算error signal,進(jìn)行back梯度反傳更新student network。

  本paper的實(shí)驗是在375小時(shí)的英文cortana數據上進(jìn)行的。測試集根據不同的domain,有不同的測試集。

  針對干凈/帶噪,在Cortana測試集上進(jìn)行實(shí)驗。首先,使用teacher network進(jìn)行測試,發(fā)現在帶噪語(yǔ)音上測試性能(18.8%)要遠差于noise-free的語(yǔ)音(15.62%)。如果通過(guò)仿真的方式來(lái)訓練teacher network,發(fā)現noisy的測試性能(17.34%)有一定的提升,這個(gè)等價(jià)于在student network上使用hard label來(lái)訓練。第四行和第五行使用T/S 算法,在同樣數據量上,soft label (16.66%)要優(yōu)于hard label (17.34%)。如果將訓練student network的數據增加到3400小時(shí),性能會(huì )有進(jìn)一步的提升(16.11%)。

  對于成年人/小孩來(lái)說(shuō),實(shí)驗首先將375小時(shí)中的女性以及兒童數據去除,獲得adult male 模型。實(shí)驗發(fā)現,小孩的識別性能很差,分別是39.05和34.16。與干凈/帶噪相同,在使用T/S算法后,能夠在性能上獲得進(jìn)一步的提升,并且數據擴大對于性能是有優(yōu)勢的。

  2.3 Paper 3

  第三篇文章是來(lái)自香港科技大學(xué)和谷歌的文章。這篇文章主要的想法和創(chuàng )新點(diǎn)是將Factorized Hidden Layer (FHL)的自適應方法 應用于LSTM-RNN。

  對于FHL adaptation算法來(lái)說(shuō),它在說(shuō)話(huà)人無(wú)關(guān)的網(wǎng)絡(luò )權重WW基礎上加上一個(gè)說(shuō)話(huà)人相關(guān)的網(wǎng)絡(luò )權重,從而獲得說(shuō)話(huà)人相關(guān)的網(wǎng)絡(luò )權重WsWs。根據公式(7),我們可以看到,這個(gè)SD transformation是根據一組矩陣基(B(1),B(2),...,B(i))(B(1),B(2),...,B(i))通過(guò)線(xiàn)性插值得到。同樣,對神經(jīng)網(wǎng)絡(luò )的偏置bb也可以進(jìn)行相應的說(shuō)話(huà)人相關(guān)變換。

  但是,在實(shí)際實(shí)驗中,由于矩陣基會(huì )帶來(lái)大量的參數引入,這些矩陣基都被限制為rank-1,因此公式(7)可以進(jìn)行一些變換,如上圖右邊所示。由于矩陣基為rank-1,那它可以被表示成一個(gè)列向量γ(i)γ(i)和一個(gè)行向量ψ(i)Tψ(i)T相乘的形式。同時(shí),插值矢量被表示成對角矩陣DsDs的形式。這樣便獲得三個(gè)矩陣ΓΓ、DsDs和ΨTΨT連乘的方式,方便模型訓練。

  本文還介紹了speaker-dependent scaling。它將LSTM記憶單元中的激活值進(jìn)行speaker-dependent scale。通過(guò)公式帶入,發(fā)現,只要對每一個(gè)說(shuō)話(huà)人學(xué)習zszs即可以進(jìn)行說(shuō)話(huà)人相關(guān)的scaling。但是這種算法存在一個(gè)問(wèn)題,zszs的維度與網(wǎng)絡(luò )的層寬相關(guān),參數量大。因此,一種subspace scaling的方法被提出,它通過(guò)一個(gè)固定維度的low-dimensional vector vsvs來(lái)控制zszs,vsvs的維度遠小于zszs,從而大大地減少了說(shuō)話(huà)人相關(guān)的參數量。

免責聲明:本文來(lái)源于網(wǎng)絡(luò ),本文僅代表作者個(gè)人觀(guān)點(diǎn),本站不作任何保證和承諾,若有任何疑問(wèn),請與本文作者聯(lián)系或有侵權行為聯(lián)系本站刪除。(原創(chuàng )稿件未經(jīng)許可,不可轉載,轉載請注明來(lái)源)
掃一掃關(guān)注數字音視工程網(wǎng)公眾號

相關(guān)閱讀related

評論comment

 
驗證碼:
您還能輸入500
    国产av福利久久精品can动漫|2021精品国产自在现线|亚洲无线观看国产高清|欧洲人妻丰满av无码久久不卡|欧美情侣性视频