麥克風(fēng)陣列的語(yǔ)音信號處理技術(shù)
來(lái)源:數字音視工程網(wǎng) 編輯:胡燕 2017-07-20 09:24:50 加入收藏 咨詢(xún)

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯(lián)系方式: | |
咨詢(xún)內容: | |
驗證碼: |
|
隨著(zhù)人工智能與人們的生活越來(lái)越近,語(yǔ)音技術(shù)的發(fā)展也備受關(guān)注。傳統的近場(chǎng)語(yǔ)音已經(jīng)無(wú)法滿(mǎn)足人們的需求,人們希望可以在更遠的距離,更復雜的環(huán)境中語(yǔ)音控制智能設備。因此,陣列技術(shù)成為遠場(chǎng)語(yǔ)音技術(shù)的核心。
陣列麥克風(fēng)對人工智能的意義:
空間選擇性:通過(guò)電掃陣列等空間定位技術(shù)可以獲取聲源的有效位置,智能設備在獲取精準的聲源位置信息,讓我們的語(yǔ)音更加智能,通過(guò)算法獲取高品質(zhì)的語(yǔ)音信號質(zhì)量。
麥克風(fēng)陣列可以自動(dòng)檢測聲源位置,跟蹤說(shuō)話(huà)人,同時(shí)可以獲取多聲源和跟蹤移動(dòng)聲源的優(yōu)勢,無(wú)論你走到任何位置,智能設備都會(huì )對你的位置方向進(jìn)行語(yǔ)音增強。
陣列麥克風(fēng)增加了空域處理,對多信號空時(shí)頻三維的處理彌補單信號在噪聲抑制,回聲抑制,混響抑制,聲源定位,語(yǔ)音分離方面的不足,讓我們的智能設備在復雜的環(huán)境中都可以獲取高質(zhì)量的語(yǔ)音信號,提供更好的智能語(yǔ)音體驗。
麥克風(fēng)陣列技術(shù)的技術(shù)難點(diǎn):
傳統的陣列信號處理技術(shù)直接應用到麥克風(fēng)陣列處理系統中往往效果不理想,其原因在于麥克風(fēng)陣列處理有不同的處理特點(diǎn):
陣列模型的建立
麥克風(fēng)主要應用處理語(yǔ)音信號,拾音范圍有限,且多用于近場(chǎng)模型,使得常規的陣列處理方法如雷達,聲吶等平面波遠場(chǎng)模型不再適用,在近場(chǎng)模型中,需要更加精準的球面波,需要考慮傳播路徑不同引起的幅度衰減不同。
寬帶信號處理
通常的陣列信號處理多為窄帶,即不同陣元在接受時(shí)延與相位差主要體現在載波頻率,而語(yǔ)音信號未經(jīng)過(guò)調制也沒(méi)有載波,且高低頻之比較大,不同陣元的相位延時(shí)與聲源本身的特性關(guān)系很大—頻率密切相關(guān),使得傳統的陣列信號處理方法不再完全適用。
非平穩信號處理
傳統陣列處理中,多為平穩信號,而麥克風(fēng)陣列的處理信號多是非平穩信號,或者短時(shí)平穩信號,因此麥克風(fēng)陣列一般對信號做短時(shí)頻域處理,每個(gè)頻域均對應一個(gè)相位差,將寬帶信號在頻域上分成多個(gè)子帶,每個(gè)子帶做窄帶處理,再合并成寬帶譜。
混響
聲音傳播受空間影響較大,由于空間反射,衍射,麥克風(fēng)收到的信號除了直達信號以外,還有多徑信號疊加,使得信號被干擾,即為混響。在室內環(huán)境中,受房間邊界或者障礙物衍射,反射導致聲音延續,極大程度的影響語(yǔ)音的可懂度。
聲源定位
聲源定位技術(shù)在人工智能領(lǐng)域應用廣泛,利用麥克風(fēng)陣列來(lái)形成空間笛卡爾坐標系,根據不同的線(xiàn)性陣列,平面陣列和空間陣列,來(lái)確定聲源在空間中的位置。智能設備首先可以對聲源的位置做進(jìn)一步的語(yǔ)音增強,當智能設備獲取你的位置信息可以結合其他的傳感器進(jìn)行進(jìn)一步的智能體驗,比如機器人會(huì )聽(tīng)到你的呼喚走到你的身邊,視頻設備會(huì )聚焦鎖定說(shuō)話(huà)人等等。了解聲源定位技術(shù)之前,我們需要了解近場(chǎng)模型和遠場(chǎng)模型。
近場(chǎng)模型和遠場(chǎng)模型
通常麥克風(fēng)陣列的距離為1~3m,陣列處于近場(chǎng)模型,麥克風(fēng)陣列接受的是球面波而不是平面波,聲波在傳播的過(guò)程中會(huì )發(fā)生衰減,而衰減因子與傳播的距離成正比,因此聲波從聲源到達陣元時(shí)候的幅度也各不相同。而遠場(chǎng)模型中,聲源到陣元的距離差相對較小,可以忽略。通常,我們定義2L²/λ為遠近場(chǎng)臨界值,L為陣列孔徑,λ為聲波波長(cháng),因此陣元接受信號不僅有相位延時(shí)還有幅度衰減。
聲源定位技術(shù)
聲源定位的方法包括波束形成,超分辨譜估計和TDOA,分別將聲源和陣列之間的關(guān)系轉變?yōu)榭臻g波束,空間譜和到達時(shí)間差,并通過(guò)相應的信息進(jìn)行定位。
電掃陣列
通過(guò)陣列形成的波束在空間掃描,根據不同角度的抑制不同來(lái)判斷方向。通過(guò)控制各個(gè)陣元的加權系數來(lái)控制陣列的輸出指向,進(jìn)行掃描。當系統掃描到輸出信號功率最大時(shí)所對應的波束方向就是認為是聲源的DOA方向,從而可以聲源定位。電掃陣列的方式存在一定的局限,僅僅適用于單一聲源。若多聲源在陣列方向圖的同一主波束內,則無(wú)法區分。而這種定位精度和陣列寬度有關(guān)—在指定頻率下,波束寬度和陣列孔徑成反比,所以大孔徑的麥克風(fēng)陣列在很多場(chǎng)合的硬件上很難實(shí)現。
超分辨譜估計
如MUSIC,ESPRIT等,對其協(xié)方差矩陣(相關(guān)矩陣)進(jìn)行特征分解,構造空間譜,關(guān)于方向的頻譜,譜峰對應的方向即為聲源方向。適合多個(gè)聲源的情況,且聲源的分辨率與陣列尺寸無(wú)關(guān),突破了物理限制,因此成為超分辨譜方案。這類(lèi)方法可以拓展到寬帶處理,但是對誤差十分敏感,如麥克風(fēng)單體誤差,通道誤差,適合遠場(chǎng)模型,矩陣運算量巨大。
TDOA
TDOA是先后估計聲源到達不同麥克風(fēng)的時(shí)延差,通過(guò)時(shí)延來(lái)計算距離差,再利用距離差和麥克風(fēng)陣列的空間幾何位置來(lái)確定聲源的位置。分為T(mén)DOA估計和TDOA定位兩步:
1. TDOA估計
常用的有廣義互相關(guān)GCC,Generalized Cross Correlation和LMS自適應濾波
廣義互相關(guān)
基于TDOA的聲源定位方法中,主要用GCC來(lái)進(jìn)行延時(shí)估計。GCC計算方法簡(jiǎn)單,延時(shí)小,跟蹤能力好,適用于實(shí)時(shí)的應用中,在中等嘈雜強度和低混響噪聲情況下性能較好,在嘈雜非穩態(tài)噪聲環(huán)境下定位精度會(huì )下降。
LMS自適應濾波
在收斂的狀態(tài)下給出TDOA的估值,不需要噪聲和信號的先驗信息,但是對混響較為敏感。該方法將兩個(gè)麥克風(fēng)信號作為目標信號和輸入信號,用輸入信號去逼近目標信號,通過(guò)調整濾波器系數得到TDOA。
2. TDOA定位
TDOA估值進(jìn)行聲源定位,三顆麥克風(fēng)陣列可以確定空間聲源位置,增加麥克風(fēng)會(huì )增高數據精度。定位的方法有MLE最大似然估計,最小方差,球形差值和線(xiàn)性相交等。TDOA相對來(lái)講應用廣泛,定位精度高,且計算量最小,實(shí)時(shí)性好,可用于實(shí)時(shí)跟蹤,在目前大部分的智能定位產(chǎn)品中均采用TDOA技術(shù)做為定位技術(shù)。
波束形成:
波束形成可分為常規的波束形成CBF,Conventional Beam Forming和自適應波束形成ABF,Adaptive Beam Forming。CBF是最簡(jiǎn)單的非自適應波束形成,對各個(gè)麥克風(fēng)的輸出進(jìn)行加權求和得到波束,在CBF中,各個(gè)通道的權值是固定的,作用是抑制陣列方向圖的旁瓣電平,以濾除旁瓣區域的干擾和噪聲。ABF在CBF的基礎之上,對干擾和噪聲進(jìn)行空域自適應濾波。ABF中,采用不同的濾波器得到不同的算法,即不同通道的幅度加權值是根據某種最優(yōu)準則進(jìn)行調整和優(yōu)化。如LMS,LS,最大SNR,LCMV(線(xiàn)性約束最小方差,linearly constrained Minimum Variance)。采用LCMV準則得到的是MVDR波束形成器(最小方差無(wú)畸變響應,Minimum Variance Distortionless Response)。LCMV的準則是在保證方向圖主瓣增益保持不變的情況下,使陣列的輸出功率最小,表明陣列輸出的干擾加噪聲功率最小,也可以理解為是最大SINR準則,從而能最大可能的接收信號和抑制噪聲和干擾。
CBF-傳統的波束形成
延時(shí)求和的波束形成方法用于語(yǔ)音增強,對麥克風(fēng)的接收信號進(jìn)行延時(shí),補償聲源到每個(gè)麥克風(fēng)的時(shí)間差,使得各路輸出信號在某一個(gè)方向同相,使得該方向的入射信號得到最大的增益,使得主波束內有最大輸出功率的方向。形成了空域濾波,使得陣列具有方向選擇性。
CBF + Adaptive Filter 增強型波束形成
結合Weiner濾波來(lái)改善語(yǔ)音增強的效果,帶噪語(yǔ)音經(jīng)過(guò)Weiner濾波得到基于LMS準則的純凈語(yǔ)音信號。而濾波器系數可以不斷更新迭代,與傳統的CBF相比,可以更有效的去除非穩態(tài)噪聲。
ABF-自適應波束形成
GSLC是一種基于A(yíng)NC主動(dòng)噪聲對消的方法,帶噪信號同時(shí)通過(guò)主通道和輔助通道,而輔助通道的阻塞矩陣將語(yǔ)音信號濾除,得到僅包含多通道噪聲的參考信號、各通道根據噪聲信號得到一個(gè)最優(yōu)信號估計,得到純凈語(yǔ)音信號估計。
陣列技術(shù)的未來(lái)發(fā)展
麥克風(fēng)陣列技術(shù)相對于單麥克風(fēng)系統有很多優(yōu)點(diǎn),已成為語(yǔ)音增強及語(yǔ)音信號處理的重要部分。語(yǔ)音增強和聲源定位已經(jīng)成為陣列技術(shù)中不可缺少的部分,在視頻會(huì )議,智能機器人,助聽(tīng)器,智能家電,通信,智能玩具,車(chē)載領(lǐng)域都需要聲源定位和語(yǔ)音增強。各種信號處理技術(shù),陣列信號處理技術(shù)都陸續結合到麥克風(fēng)陣列的語(yǔ)音處理系統當中,并逐漸得到算法改進(jìn)和進(jìn)一步的廣泛應用。在復雜的噪聲環(huán)境,混響環(huán)境,聲學(xué)環(huán)境下,強大的硬件處理能力也使得復雜算法實(shí)時(shí)處理語(yǔ)音增強成為了可能。在未來(lái),語(yǔ)音和圖像的緊密結合會(huì )成為人工智能領(lǐng)域的新的突破口,在人工智能的風(fēng)口浪尖,是誰(shuí)能將語(yǔ)音識別,語(yǔ)音理解,陣列信號處理,遠場(chǎng)語(yǔ)音,圖像識別,人臉識別,虹膜識別,聲紋識別的技術(shù)巧妙并有機的結合在一起,并將技術(shù)的本質(zhì)和與人為本的宗旨完美的結合,讓我們拭目以待。
評論comment