DAV首頁(yè)
數字音視工程網(wǎng)

微信公眾號

數字音視工程網(wǎng)

手機DAV

null
null
null
卓華,
招商,
null
null
null
快捷,
null

我的位置:

share

智能家居語(yǔ)音控制解決方案:能聽(tīng)會(huì )說(shuō)、自在交互

來(lái)源:數字音視工程網(wǎng)        編輯:航行150    2015-12-09 14:47:51     加入收藏    咨詢(xún)

咨詢(xún)
所在單位:*
姓名:*
手機:*
職位:
郵箱:*
其他聯(lián)系方式:
咨詢(xún)內容:
驗證碼:
不能為空 驗證碼錯誤
確定

 遠場(chǎng)語(yǔ)音識別、云端語(yǔ)義辨識、人工智能應用等等一個(gè)個(gè)技術(shù)節點(diǎn)得到新的突破,為智能家居提供了新的控制入口選擇。本文將從技術(shù)趨勢、解決方案、產(chǎn)品應用、項目實(shí)施等多角度為您呈現語(yǔ)音控制技術(shù)在智能家居產(chǎn)品和集成項目中的應用前景。

  在智能家居給人們帶來(lái)便捷生活的同時(shí),人們的控制習慣逐漸發(fā)生改變。語(yǔ)音技術(shù)的發(fā)展也為控制入口做了一個(gè)補充,在拋去了傳統遙控器和手機APP之后,通過(guò)口令發(fā)送讓家居環(huán)境達到舒適狀態(tài),讓生活更便捷智能,這是否會(huì )成為智能家居行業(yè)下一個(gè)階段的普遍應用?

  遠場(chǎng)語(yǔ)音識別、云端語(yǔ)義辨識、人工智能應用等等一個(gè)個(gè)技術(shù)節點(diǎn)得到新的突破,為智能家居提供了新的控制入口選擇。本文將從技術(shù)趨勢、解決方案、產(chǎn)品應用、項目實(shí)施等多角度為您呈現語(yǔ)音控制技術(shù)在智能家居產(chǎn)品和集成項目中的應用前景。

  所謂智能語(yǔ)音產(chǎn)業(yè),主要指通過(guò)語(yǔ)音合成技術(shù)和語(yǔ)音識別技術(shù),為用戶(hù)提供各種服務(wù)的產(chǎn)業(yè)。一般來(lái)說(shuō),用戶(hù)只需要用說(shuō)話(huà)的方式給服務(wù)終端發(fā)布命令,就能得到相應的服務(wù)。這一產(chǎn)業(yè)從上世紀六十年代就已出現,但并不為普通消費者所熟知,消費者對其認知度也比較低。近年來(lái),隨著(zhù)蘋(píng)果、谷歌、微軟等公司先后推出Siri等智能語(yǔ)音服務(wù),這一服務(wù)以及相關(guān)產(chǎn)業(yè)也開(kāi)始被普通消費者和投資界所關(guān)注。

  語(yǔ)音控制技術(shù)

  與機器進(jìn)行語(yǔ)音交流,讓機器明白你說(shuō)什么,這是人們長(cháng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識別技術(shù)就是讓機器通過(guò)識別和理解過(guò)程把語(yǔ)音信號轉變?yōu)橄鄳奈谋净蛎畹募夹g(shù)。

  語(yǔ)音識別是一門(mén)交叉學(xué)科,語(yǔ)音識別技術(shù)與語(yǔ)音合成技術(shù)結合使人們能夠甩掉鍵盤(pán),通過(guò)語(yǔ)音命令進(jìn)行操作,語(yǔ)音技術(shù)的應用已經(jīng)成為一個(gè)具有競爭性的新興高技術(shù)產(chǎn)業(yè)。

  目前語(yǔ)音控制技術(shù)存在的問(wèn)題

  目前,對于語(yǔ)音控制類(lèi)的智能硬件產(chǎn)品在很多場(chǎng)景下因語(yǔ)音交互體驗不如人意而深受詬病,究其原因主要是受限于空間距離、背景噪音、其他人聲干擾、回聲、混響等多重復雜因素,進(jìn)而導致的識別距離近、識別率低等明顯痛點(diǎn)。

  除此之外,單是中國語(yǔ)系、方言和口音就相當多,加上中文的多語(yǔ)義性,所以不同地區的人使用語(yǔ)音控制識別率差異較大。同時(shí),在語(yǔ)義識別上,也存在上下文的關(guān)聯(lián)帶來(lái)識別的學(xué)習難、定位難和建立模型難等問(wèn)題。

  語(yǔ)音識別的幾種控制技術(shù)

  “語(yǔ)音識別”技術(shù)相當于給計算機系統安裝上“耳朵”,使其具備“能聽(tīng)”的功能。該技術(shù)經(jīng)過(guò)語(yǔ)音信號處理、語(yǔ)音特征處理、模型訓練及解碼引擎等復雜步驟,使機器最終能夠將語(yǔ)音中的內容、說(shuō)話(huà)人、語(yǔ)種等信息識別出來(lái)。語(yǔ)音控制功能的實(shí)現,與用戶(hù)的使用習慣高度關(guān)聯(lián)。目前的語(yǔ)音控制功能實(shí)現方式可分為近場(chǎng)語(yǔ)音識別和遠場(chǎng)語(yǔ)音識別二個(gè)大類(lèi)。

  近場(chǎng)/遠場(chǎng)語(yǔ)音識別技術(shù)

  近場(chǎng)語(yǔ)音識別,需要用戶(hù)點(diǎn)擊啟動(dòng),并且用戶(hù)與終端設備的距離比較近,如手機或其他終端設備,可直接借助這些終端設備的實(shí)現控制功能。

  遠場(chǎng)語(yǔ)音識別,以麥克風(fēng)陣列遠距離拾取的語(yǔ)音數據作為輸入數據,通過(guò)語(yǔ)音識別的算法將語(yǔ)音信號轉寫(xiě)成文字的技術(shù)。雖然和近場(chǎng)語(yǔ)音識別技術(shù)在原理上是相同的,但是由于音源和麥克風(fēng)之間的空間距離增大,在聲波傳播過(guò)程中會(huì )出現信號強度的衰減和各種噪音干擾,因此需要特殊的語(yǔ)音數據拾取和預處理技術(shù)。不同的拾取設備和預處理技術(shù)常常會(huì )使用于語(yǔ)音識別的聲波信號特征發(fā)生改變,因此針對不同的遠場(chǎng)語(yǔ)音拾取技術(shù),需要對語(yǔ)音識別引擎進(jìn)行定制化適配和優(yōu)化。

  當語(yǔ)音信號在傳播過(guò)程中有所衰減,影響采集信號的強度和分辨率,使用的靈敏度非常高的指向性麥克風(fēng),同時(shí)將麥克風(fēng)的參數調整到適合遠場(chǎng)語(yǔ)音數據的模式,可以最大限度采集清晰的遠場(chǎng)語(yǔ)音信號。語(yǔ)音指令聲波在傳輸過(guò)程中受到周?chē)胍舻奈廴?,降低聲波信號的信噪比,使用定向波速成形技術(shù),抑制方向外的噪音,從而減少噪音對語(yǔ)音信號的干擾。在一個(gè)房間里,麥克風(fēng)拾取的聲波不僅僅直接來(lái)自于音源,還有音源發(fā)出后經(jīng)過(guò)墻壁反射的遲到的聲波,形成聲音的殘留,造成混響。利用多個(gè)麥克風(fēng)采集的數據,通過(guò)多通道回聲消除算法,將這些不同時(shí)間達到的聲音數據分離開(kāi)來(lái),從而消除了混響對聲音數據的影響。

  喚醒目標檢測技術(shù)

  在遠距離用語(yǔ)音進(jìn)行操控的時(shí)候,聲音可能來(lái)自不同方向的不同人。因此首先要確定哪些是發(fā)指令的聲音,哪些不是。使用的麥克風(fēng)陣列波速成形算法,將360度空間垂直劃分成若干區域,每個(gè)麥克風(fēng)負責檢測一個(gè)指定的區域。當某個(gè)空間區域里面檢測到有喚醒詞出現時(shí),對應于該空間區域的麥克風(fēng)拾音功能就被增強,其他區域的麥克風(fēng)拾音就被抑制。從而實(shí)現了對聲音進(jìn)行有方向有角度的拾取,避免了周?chē)娨暀C里的說(shuō)話(huà)聲音、其他人交談對語(yǔ)音指令的影響。

  播放狀態(tài)打斷技術(shù)

  在對音箱等設備進(jìn)行語(yǔ)音控制時(shí),往往該設備處于播放歌曲的狀態(tài)。由于麥克風(fēng)安裝在音箱上,麥克風(fēng)和說(shuō)話(huà)人之間的距離要遠大于麥克風(fēng)和揚聲器之間的距離,在這樣的情況下,采用內外兼顧的方法進(jìn)行解決。內部使用特殊的回聲消除算法從內部減小噪音對麥克風(fēng)的影響。另外對于震動(dòng)帶來(lái)的非線(xiàn)性干擾,傳統的線(xiàn)性回聲消除方法失效了,因此可以使用非線(xiàn)性回聲消除算法提高內部噪聲消除的效果。在外部結構設計方面,使用精心設計的麥克風(fēng)陣列減震結構,使多個(gè)麥克風(fēng)和它所連接的電路板之間的震動(dòng)減小到最小,從而最大程度的控制高聲強導致的音箱本體震動(dòng)對拾音的干擾。

  成熟的語(yǔ)音控制應用解決方案

  科大訊飛作為中國最大的智能語(yǔ)音技術(shù)提供商,在智能語(yǔ)音技術(shù)領(lǐng)域有著(zhù)長(cháng)期的研究積累,并在中文語(yǔ)音合成、語(yǔ)音識別、口語(yǔ)評測等多項技術(shù)上擁有國際領(lǐng)先的成果。對于智能家居語(yǔ)音控制的應用,必須解決好距離、效率、個(gè)性化、方言、喚醒等問(wèn)題,科大訊飛在這些方面都有非常成熟的解決方案。

  距離:遠場(chǎng)識別技術(shù)打破距離瓶頸

  近場(chǎng)識別技術(shù)目前已經(jīng)比較成熟,現在手機上使用的語(yǔ)音輸入功能就屬于近場(chǎng)識別技術(shù),用戶(hù)必須在離手機比較近的距離內說(shuō)話(huà),但在智能家居環(huán)境中,用戶(hù)和智能終端之間的距離被大大增加了,用戶(hù)能隨意用語(yǔ)音控制智能家居的一個(gè)必要條件就是在無(wú)論你在客廳哪個(gè)角落發(fā)出指令,設備都能準確的識別,語(yǔ)音識別技術(shù)必須突破距離的障礙。

  目前室內的語(yǔ)音交互受到背景噪音、其他人聲干擾、回聲、混響等多重復雜因素影響,導致識別率低甚至無(wú)法使用,只能在相對安靜、近距離的環(huán)境下使用。而遠場(chǎng)識別技術(shù)將能夠很好的解決這些問(wèn)題。

  科大訊飛于2015年3月發(fā)布遠場(chǎng)識別技術(shù),是目前唯一支持超過(guò)5米的語(yǔ)音識別技術(shù),突破了語(yǔ)音交互距離瓶頸,大幅度改進(jìn)了語(yǔ)音交互的自由度。該技術(shù)利用麥克風(fēng)陣列的空域濾波特性——在目標說(shuō)話(huà)人方向形成拾音波束(BeamForming),抑制波束之外的噪聲,結合獨特的去混響算法,最大程度的吸收反射聲,從而達到去除混響的目的,用戶(hù)在客廳的任意角落通過(guò)語(yǔ)音操控智能家電已成為現實(shí)。

  效率:快速反應實(shí)現秒懂

  近年來(lái),隨著(zhù)深度學(xué)習理論的爆發(fā)式發(fā)展及其在語(yǔ)音識別領(lǐng)域獲得的顯著(zhù)效果,同時(shí)Kaldi等開(kāi)源語(yǔ)音識別工具也在工業(yè)界和學(xué)術(shù)界逐漸普及,語(yǔ)音識別的門(mén)檻持續降低,許多公司都具備了語(yǔ)音識別的能力及相關(guān)產(chǎn)品,但是一些產(chǎn)品反應慢,說(shuō)出一句話(huà)往往要等待很久才能顯示結果,另外,準確率也不高,存在識別不出來(lái)的情況。

  針對語(yǔ)音識別準確率和響應速度的問(wèn)題,科大訊飛持續在核心技術(shù)和產(chǎn)品特性上做出創(chuàng )新,在把國際領(lǐng)先的深度神經(jīng)網(wǎng)絡(luò )技術(shù)引入語(yǔ)音識別的基礎上,基于深度神經(jīng)網(wǎng)絡(luò )的語(yǔ)音增強算法對輸入語(yǔ)音進(jìn)行“識別關(guān)鍵信息無(wú)損”的降噪,通過(guò)海量訓練語(yǔ)料基礎上的高精度聲學(xué)模型和語(yǔ)言模型訓練,并結合極致的解碼引擎工程技術(shù),實(shí)現了在很小延遲的情況下,做到將去除原始語(yǔ)音的噪聲干擾和識別幾乎同時(shí),大大提高了語(yǔ)音輸入的響應速度和用戶(hù)體驗,在大詞匯連續語(yǔ)音識別率上可以達到95%以上,命令詞識別率達到99%以上,解碼引擎可以在用戶(hù)說(shuō)完話(huà)40毫秒之內給出結果,真正實(shí)現“秒懂”。

  個(gè)性化:自動(dòng)學(xué)習適應用戶(hù)使用習慣

  每個(gè)人在說(shuō)話(huà)時(shí),口音、語(yǔ)速、口頭禪都不一樣,那么家里的智能設備只會(huì )識別一些基本詞句顯然是遠遠不夠的,它們必須要更懂你。比如,懂你的口音、方言、口頭禪以及時(shí)不時(shí)蹦出的專(zhuān)業(yè)詞匯等。

  讓智能設備適應每個(gè)人的使用習慣可能嗎?答案是肯定的。這里要用的到就是語(yǔ)音識別的另外一項關(guān)鍵技術(shù)——個(gè)性化識別技術(shù)。個(gè)性化識別指的是語(yǔ)音識別系統具備自動(dòng)學(xué)習并適應用戶(hù)使用習慣的能力,你用的越多,它越懂你。一般來(lái)說(shuō),個(gè)性化識別包括發(fā)音和語(yǔ)言?xún)煞矫?。其中發(fā)音個(gè)性化主要是指系統對用戶(hù)語(yǔ)速、口音等發(fā)音習慣的學(xué)習,而語(yǔ)言個(gè)性化主要是指系統可以對用戶(hù)的特定詞匯,例如人名、地名、口頭禪、專(zhuān)業(yè)詞匯等,具備更好的辨識性。

  目前科大訊飛的個(gè)性化識別技術(shù)已能針對每個(gè)人的興趣點(diǎn)、知識背景等來(lái)進(jìn)行個(gè)性化語(yǔ)言模型建模,從而準確識別出個(gè)性化的詞匯內容。以后你用的越多,語(yǔ)音識別系統就會(huì )越懂你。

  方言:無(wú)拘束隨心控制

  眾所周知,中國的語(yǔ)音及語(yǔ)言博大精深,雖然國家在推廣標準普通話(huà)方面不遺余力,但是中國真正掌握標準普通話(huà)的人群比例還是比較低的,而中國的口音現象則是紛繁復雜,同城市中不同口音的情況也很常見(jiàn)。因此,當這些帶有或輕或重口音的人群在使用語(yǔ)音輸入時(shí),如果按通常的方法使用標準普通話(huà)數據進(jìn)行模型的訓練,就會(huì )產(chǎn)生很?chē)乐氐倪m配問(wèn)題,從而影響語(yǔ)音輸入時(shí)的識別效果。

  “方言”現在也不再是語(yǔ)音識別的障礙,得益于各類(lèi)方言豐富的音頻數據、特殊詞匯、發(fā)音現象等專(zhuān)業(yè)資源以及充分利用深度神經(jīng)網(wǎng)絡(luò )的自學(xué)習特色,目前,訊飛輸入法已經(jīng)陸續支持四川話(huà)、河南話(huà)、東北話(huà)、天津話(huà)等15種方言識別,這些方言識別能力同樣適用于智能家居環(huán)境中。以后,無(wú)論你使用普通話(huà)還是方言,無(wú)論你說(shuō)話(huà)語(yǔ)速快還是慢,普通話(huà)標不標準,在家里都能自由地使用語(yǔ)音控制智能設備。

  語(yǔ)音喚醒:真正解放雙手

  由于功耗等方面的限制,智能設備很難24小時(shí)都保持在激活狀態(tài)。因此,要想在家里自由地控制智能家居設備,我們還需要能即時(shí)“喚醒”功能,也就是給智能設備加入“語(yǔ)音喚醒”技術(shù)。

  語(yǔ)音喚醒,是指通過(guò)含有特定喚醒詞的語(yǔ)音輸入來(lái)“觸發(fā)”語(yǔ)音識別系統以實(shí)現后續的語(yǔ)音交互。通過(guò)該技術(shù),任何人在任何環(huán)境、任何時(shí)間,無(wú)論是近場(chǎng)還是遠場(chǎng),面向設備直接說(shuō)出預設的喚醒詞,就能激活產(chǎn)品的識別引擎,從而真正實(shí)現全程無(wú)觸控的語(yǔ)音交互。

  除了說(shuō)單個(gè)喚醒詞實(shí)現喚醒外,更自然便捷、在技術(shù)上更具有挑戰性的交互方式是在連續語(yǔ)流中帶上喚醒詞,以實(shí)現喚醒產(chǎn)品并同時(shí)實(shí)現操控的效果。目前,語(yǔ)音喚醒方案已在部分產(chǎn)品中取得成功應用,比如在靈犀語(yǔ)音助手中,說(shuō)出“靈犀靈犀,打電話(huà)給張三”就可以喚醒設備并自動(dòng)完成人名識別與撥打電話(huà)。

  國內外語(yǔ)音控制的市場(chǎng)現狀

  隨著(zhù)智能家居市場(chǎng)的發(fā)展,國外的IT巨頭們已先后以智能家居產(chǎn)品與語(yǔ)音相結合的方式進(jìn)入智能家居領(lǐng)域:谷歌收購NEST布局智能家居,不斷強化Google Now的語(yǔ)音入口;蘋(píng)果HomeKit智能家居平臺與Siri也不斷加強融合;市場(chǎng)上流行的Echo智能音箱使用了亞馬遜的Alexa語(yǔ)音技術(shù);微軟也發(fā)布語(yǔ)音助手Cortana,將它作為智能家庭領(lǐng)域擴展交互入口。從這些國外科技大佬們對語(yǔ)音產(chǎn)業(yè)的重視和投入,可以看出智能語(yǔ)音與智能家居的融合是大勢所趨,業(yè)內普遍認為語(yǔ)音作為人類(lèi)信息最自然、最便捷的交互方式,必將成為未來(lái)智能家居設備中的重要組成部分。

  在國內,語(yǔ)音巨頭科大訊飛也在去年8月宣布進(jìn)軍智能家居市場(chǎng),并于今年3月攜手京東成立合資公司——北京靈隆科技,推出了其生產(chǎn)第一個(gè)產(chǎn)品——DingDong智能音箱,除了具備音箱的基本功能,還可以作為語(yǔ)音助手,更是智能硬件的控制中樞。除此之外,百度、騰訊等都在打造自己的語(yǔ)音團隊。

  隨著(zhù)國內外巨頭們對語(yǔ)音交互領(lǐng)域投入的增加,語(yǔ)音核心技術(shù)正逐步成熟。智能家居作為 IT 產(chǎn)業(yè)和制造工業(yè)向個(gè)人家居領(lǐng)域滲透發(fā)展的必然結果,語(yǔ)音技術(shù)正不斷進(jìn)入智能家居領(lǐng)域滲透,市場(chǎng)前景廣闊。

  小貼士

  Siri是iOS系統上的語(yǔ)音系統,與Siri對話(huà),就和跟朋友對話(huà)一樣,可以幫您做很多事情,例如發(fā)短信、打電話(huà)、預定餐廳、問(wèn)路等等。也能與Siri做一些很有趣的互動(dòng),例如讓它幫您拋硬幣或者占卜星座。Siri可以在免提模式下工作,可以通過(guò)Siri進(jìn)行語(yǔ)音操作導航尋找最佳駕車(chē)路線(xiàn)。Siri也可以與HomeKit一起工作以實(shí)現通過(guò)語(yǔ)音來(lái)控制家里的智能產(chǎn)品。Siri還能對接維基百科、Yelp、爛番茄、Shazam等許多第三方在線(xiàn)服務(wù)平臺,幫助用戶(hù)更多地了解與關(guān)注世界。

  語(yǔ)音交互對于智能家居行業(yè)的意義

  科技讓生活更智能,語(yǔ)音讓交互更便捷。語(yǔ)音交互對于智能家居最直接的意義在于將“智能家居”變得真正的智能起來(lái)。無(wú)論是再技術(shù)先進(jìn)的品牌,再友善的人機交互界面,都沒(méi)有語(yǔ)音交互控制來(lái)的簡(jiǎn)便直接。所有品牌、所有產(chǎn)品以一個(gè)智能控制的概念進(jìn)駐到人們息息相關(guān)的日常生活中的時(shí)候,少不了需要一個(gè)學(xué)習和適應的過(guò)程,而語(yǔ)音則不需要,我們所有的日常交流、行為習慣,語(yǔ)言和聲音已經(jīng)成了人們思維中的一部分。所以,如果智能家居能與語(yǔ)音交互融于一體,那么智能家居產(chǎn)業(yè)也許會(huì )迎來(lái)一次劃時(shí)代的突破。

免責聲明:本文來(lái)源于網(wǎng)絡(luò )收集,本文僅代表作者個(gè)人觀(guān)點(diǎn),本站不作任何保證和承諾,若有任何疑問(wèn),請與本文作者聯(lián)系或有侵權行為聯(lián)系本站刪除。(原創(chuàng )稿件未經(jīng)許可,不可轉載,轉載請注明來(lái)源)
掃一掃關(guān)注數字音視工程網(wǎng)公眾號

相關(guān)閱讀related

評論comment

 
驗證碼:
您還能輸入500
    国产av福利久久精品can动漫|2021精品国产自在现线|亚洲无线观看国产高清|欧洲人妻丰满av无码久久不卡|欧美情侣性视频