語(yǔ)音識(shí)別技術(shù)要在智能家居生活中應(yīng)用需要過(guò)五關(guān)

發(fā)布時(shí)間：2024-02-22

隨著國(guó)內(nèi)外巨頭們對(duì)語(yǔ)音交互領(lǐng)域投入的增加，語(yǔ)音核心技術(shù)正逐步成熟，曾經(jīng)的技術(shù)瓶頸亦在慢慢被突破。這其中語(yǔ)音識(shí)別技術(shù)是語(yǔ)音交互的基礎(chǔ)與核心，“語(yǔ)音識(shí)別”技術(shù)相當(dāng)于給計(jì)算機(jī)系統(tǒng)安裝上“耳朵”，使其具備“能聽(tīng)”的功能。該技術(shù)經(jīng)過(guò)語(yǔ)音信號(hào)處理、語(yǔ)音特征處理、模型訓(xùn)練及解碼引擎等復(fù)雜步驟，使機(jī)器最終能夠?qū)⒄Z(yǔ)音中的內(nèi)容、說(shuō)話人、語(yǔ)種等信息識(shí)別出來(lái)。
*主流的語(yǔ)音識(shí)別系統(tǒng)框架圖
了解了語(yǔ)音識(shí)別的基礎(chǔ)內(nèi)容和系統(tǒng)框架之后我們來(lái)看看，語(yǔ)音識(shí)別技術(shù)要在智能家居生活中真正實(shí)用，必須要過(guò)哪 5 關(guān)？
一、距離：遠(yuǎn)場(chǎng)識(shí)別技術(shù)打破距離瓶頸
近場(chǎng)識(shí)別技術(shù)目前已經(jīng)比較成熟，現(xiàn)在手機(jī)上使用的語(yǔ)音輸入功能就屬于近場(chǎng)識(shí)別技術(shù)，用戶必須在離手機(jī)比較近的距離內(nèi)說(shuō)話，但在智能家居環(huán)境中，用戶和智能終端之間的距離被大大增加了，用戶能隨意用語(yǔ)音控制智能家居的一個(gè)必要條件就是在無(wú)論你在客廳哪個(gè)角落發(fā)出指令，設(shè)備都能準(zhǔn)確的識(shí)別，語(yǔ)音識(shí)別技術(shù)必須突破距離的障礙。
目前室內(nèi)的語(yǔ)音交互受到背景噪音、其他人聲干擾、回聲、混響等多重復(fù)雜因素影響，導(dǎo)致識(shí)別率低甚至無(wú)法使用，只能在相對(duì)安靜、近距離的環(huán)境下使用。而遠(yuǎn)場(chǎng)識(shí)別技術(shù)將能夠很好的解決這些問(wèn)題。
目前的遠(yuǎn)場(chǎng)識(shí)別技術(shù)已經(jīng)能夠支持超過(guò) 5 米的語(yǔ)音識(shí)別，突破了語(yǔ)音交互距離瓶頸，大幅度改進(jìn)了語(yǔ)音交互的自由度。該技術(shù)利用麥克風(fēng)陣列的空域?yàn)V波特性——在目標(biāo)說(shuō)話人方向形成拾音波束（beamforming），抑制波束之外的噪聲，結(jié)合獨(dú)特的去混響算法，最大程度的吸收反射聲，從而達(dá)到去除混響的目的，用戶在客廳的任意角落通過(guò)語(yǔ)音操控智能家電已成為現(xiàn)實(shí)。
二、效率：又快又準(zhǔn)
近年來(lái)，隨著深度學(xué)習(xí)理論的爆發(fā)式發(fā)展及其在語(yǔ)音識(shí)別領(lǐng)域獲得的顯著效果，同時(shí) kaldi 等開源語(yǔ)音識(shí)別工具也在工業(yè)界和學(xué)術(shù)界逐漸普及，語(yǔ)音識(shí)別的門檻持續(xù)降低，許多公司都具備了語(yǔ)音識(shí)別的能力及相關(guān)產(chǎn)品，但其實(shí)很多使用過(guò) siri 的國(guó)內(nèi)用戶都會(huì)有這樣的感覺(jué): siri 的反應(yīng)太慢，說(shuō)出一句話往往要等待很久才能顯示結(jié)果，另外，準(zhǔn)確率也不高，離好用還有很遠(yuǎn)的距離。
要持續(xù)優(yōu)化準(zhǔn)確率和響應(yīng)速度的問(wèn)題，必須要在核心技術(shù)和產(chǎn)品特性上做出創(chuàng)新，目前國(guó)內(nèi)領(lǐng)先的解決方案是在把深度神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別的基礎(chǔ)上，基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法對(duì)輸入語(yǔ)音進(jìn)行“識(shí)別關(guān)鍵信息無(wú)損”的降噪，通過(guò)海量訓(xùn)練語(yǔ)料基礎(chǔ)上的高精度聲學(xué)模型和語(yǔ)言模型訓(xùn)練，并結(jié)合極致的解碼引擎工程技術(shù)，實(shí)現(xiàn)了在很小延遲的情況下，做到將去除原始語(yǔ)音的噪聲干擾和識(shí)別幾乎同時(shí)，大大提高了語(yǔ)音輸入的響應(yīng)速度和用戶體驗(yàn)，最終實(shí)現(xiàn)在大詞匯連續(xù)語(yǔ)音識(shí)別率上可以達(dá)到 95% 以上，命令詞識(shí)別率達(dá)到 99% 以上，解碼引擎可以在用戶說(shuō)完話 40 毫秒之內(nèi)給出結(jié)果，真正實(shí)現(xiàn)“秒懂”。
三、個(gè)性化：越來(lái)越懂你
每個(gè)人在說(shuō)話時(shí)，口音、語(yǔ)速、口頭禪都不一樣，那么家里的智能設(shè)備只會(huì)識(shí)別一些基本詞句顯然是遠(yuǎn)遠(yuǎn)不夠的，它們必須要更懂你。比如，懂你的口音、方言、口頭禪以及時(shí)不時(shí)蹦出的專業(yè)詞匯等。
*語(yǔ)言個(gè)性化方案
讓智能設(shè)備適應(yīng)每個(gè)人的使用習(xí)慣可能嗎？答案是肯定的。這里要用的到就是語(yǔ)音識(shí)別的另外一項(xiàng)關(guān)鍵技術(shù)——個(gè)性化識(shí)別技術(shù)。個(gè)性化識(shí)別指的是語(yǔ)音識(shí)別系統(tǒng)具備自動(dòng)學(xué)習(xí)并適應(yīng)用戶使用習(xí)慣的能力，你用的越多，它越懂你。一般來(lái)說(shuō)，個(gè)性化識(shí)別包括發(fā)音和語(yǔ)言兩方面。其中發(fā)音個(gè)性化主要是指系統(tǒng)對(duì)用戶語(yǔ)速、口音等發(fā)音習(xí)慣的學(xué)習(xí)，而語(yǔ)言個(gè)性化主要是指系統(tǒng)可以對(duì)用戶的特定詞匯（例如人名、地名、口頭禪、專業(yè)詞匯等）具備更好的辨識(shí)性。
目前業(yè)內(nèi)成熟的個(gè)性化識(shí)別技術(shù)已能針對(duì)每個(gè)人的興趣點(diǎn)、知識(shí)背景等來(lái)進(jìn)行個(gè)性化語(yǔ)言模型建模，從而準(zhǔn)確識(shí)別出個(gè)性化的詞匯內(nèi)容。以后你用的越多，語(yǔ)音識(shí)別系統(tǒng)就會(huì)越懂你。
四、方言：普通話標(biāo)不標(biāo) zun 也照樣能用
眾所周知，中國(guó)的語(yǔ)音及語(yǔ)言博大精深，雖然國(guó)家在推廣標(biāo)準(zhǔn)普通話方面不遺余力，但是中國(guó)真正掌握標(biāo)準(zhǔn)普通話的人群比例還是比較低的，而中國(guó)的口音現(xiàn)象則是紛繁復(fù)雜，甚至?xí)霈F(xiàn)同城市中都有不同口音的情況。因此，當(dāng)這些帶有或輕或重口音的人群在使用語(yǔ)音輸入時(shí)，如果按通常的方法使用標(biāo)準(zhǔn)普通話數(shù)據(jù)進(jìn)行模型的訓(xùn)練，就會(huì)產(chǎn)生很嚴(yán)重的適配問(wèn)題，從而影響語(yǔ)音輸入時(shí)的識(shí)別效果。
“方言”現(xiàn)在也不再是語(yǔ)音識(shí)別的障礙，得益于各類方言豐富的音頻數(shù)據(jù)、特殊詞匯、發(fā)音現(xiàn)象等專業(yè)資源以及充分利用深度神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)特色，目前，訊飛輸入法已經(jīng)陸續(xù)支持四川話、河南話、東北話、天津話等 15 種方言識(shí)別，這些方言識(shí)別能力同樣適用于智能家居環(huán)境中。以后，無(wú)論你使用普通話還是方言，無(wú)論你說(shuō)話語(yǔ)速快還是慢，普通話標(biāo)不標(biāo) zun，在家里都能自由地使用語(yǔ)音控制智能設(shè)備。
五、語(yǔ)音喚醒：真正解放雙手
由于功耗等方面的限制，智能設(shè)備很難 24 小時(shí)都保持在激活狀態(tài)。因此，要想在家里自由地控制智能家居設(shè)備，我們還需要能即時(shí)“喚醒”功能，也就是給智能設(shè)備加入“語(yǔ)音喚醒”技術(shù)。
語(yǔ)音喚醒，是指通過(guò)含有特定喚醒詞的語(yǔ)音輸入來(lái)“觸發(fā)”語(yǔ)音識(shí)別系統(tǒng)以實(shí)現(xiàn)后續(xù)的語(yǔ)音交互。通過(guò)該技術(shù)，任何人在任何環(huán)境、任何時(shí)間，無(wú)論是近場(chǎng)（0.5 米以內(nèi)）還是遠(yuǎn)場(chǎng)（2~5 米），面向設(shè)備直接說(shuō)出預(yù)設(shè)的喚醒詞，就能激活產(chǎn)品的識(shí)別引擎，從而真正實(shí)現(xiàn)全程無(wú)觸控的語(yǔ)音交互。
除了說(shuō)單個(gè)喚醒詞實(shí)現(xiàn)喚醒外，更自然便捷、在技術(shù)上更具有挑戰(zhàn)性的交互方式是在連續(xù)語(yǔ)流中帶上喚醒詞，以實(shí)現(xiàn)喚醒產(chǎn)品并同時(shí)實(shí)現(xiàn)操控的效果，比如直接在語(yǔ)音助手中說(shuō)出“打電話給張三”就可以喚醒設(shè)備并自動(dòng)完成人名識(shí)別與撥打電話。
隨著語(yǔ)音識(shí)別技術(shù)在距離、效率、個(gè)性化、方言、喚醒等多方面一一突破實(shí)用瓶頸，隨心所欲“聲”控智能家居的時(shí)代一觸即發(fā)，那么這一變革多久會(huì)來(lái)？也許在明年，也許就在明天。

上一個(gè)：葡萄大棚種植與管理
下一個(gè)：錄屏有雜音怎么解決vivo(錄屏有雜音怎么解決手機(jī))

網(wǎng)絡(luò)ip地址更改(網(wǎng)絡(luò)修改ip地址怎么弄)
微肥的施用
適合開直播的平板電腦，平板電腦可以像電腦一樣直播嗎
普洱茶收藏的疑惑？
13521違章代碼怎么處罰
雙法蘭差壓變送器的特點(diǎn)與優(yōu)勢(shì)
不參與法院的鑒定程序
發(fā)泡橡塑保溫板報(bào)價(jià)
電腦上看不到光驅(qū)(為什么電腦無(wú)法識(shí)別光驅(qū))
電腦連接寬帶無(wú)法上網(wǎng)(電腦不能連接寬帶怎么回事)