語音識別翻譯(語音識別在線翻譯器)

發(fā)布時間:2023-12-04
本文主要介紹語音識別翻譯(語音識別在線翻譯器),下面一起看看語音識別翻譯(語音識別在線翻譯器)相關資訊。
1hmm基金會
一個模型、兩個假設和三個問題
1)模型
隨機過程:它是依賴于參數(shù)(通常是時間)的一組隨機變量的總和。隨機變量是隨機現(xiàn)象的量化表現(xiàn),其值隨著偶然因素的影響而變化。
例如,商店在從時間t0到時間tk期間接收的顧客數(shù)量是一組取決于時間t的隨機變量,即隨機過程。
馬爾可夫過程:一種隨機過程,系統(tǒng)在下一時刻的狀態(tài)只與前一狀態(tài)有關。
隱馬爾可夫模型(hmm):用于描述參數(shù)未知的馬爾可夫過程。
隱馬爾可夫模型是一種關于時間序列的概率模型,它描述了從一個隱馬爾可夫鏈中隨機產(chǎn)生一個不可觀測的狀態(tài)序列,然后從每個狀態(tài)產(chǎn)生一個觀測序列的過程,序列的每個位置可以看作一個時刻。
2)兩個基本假設
齊次馬爾可夫假設:隱馬爾可夫鏈在t時刻的狀態(tài)只與t-1時的狀態(tài)有關。
觀察獨立性假設:觀察只與當前狀態(tài)有關。
3)三大問題
1)概率計算問題。即給定模型λ = (a,b,π) λ = (a,b,π),觀測序列o={o1,o2,...ot}o={o1,o2,...ot},計算模型λ下觀測序列o出現(xiàn)的概率p(o|λ)。需要用正向算法、反向算法和直接計算法來解決這個問題。
2)解碼問題。即給定模型λ = (a,b,π)和觀測序列o={o1,o2,...ot},找到最可能對應的狀態(tài)序列。需要基于動態(tài)規(guī)劃的維特比算法來解決這個問題。
3)模式學習問題。也就是說,給定觀察序列o={o1,o2,...ot},估計模型λ = (a,b,π)的參數(shù),使該模型下觀測序列的條件概率p(o|λ)最大化。解決這個問題需要基于em算法的baum-welch算法。
2 hmm的隱藏狀態(tài)
隱藏狀態(tài),盒子,第k高斯
隱藏狀態(tài)是一個抽象的概念,因為語音信號在很長的一段時間內(nèi)是非平穩(wěn)的,但在很短的一段時間內(nèi)(例如50毫秒)可以認為是穩(wěn)定的。平穩(wěn)信號的特點是信號的頻譜分布是穩(wěn)定的,不同時間段的頻譜分布是相似的。隱馬爾可夫模型將具有相似頻譜的短連續(xù)信號分類為隱藏狀態(tài)。維特比算法對齊就是找出哪些幀屬于哪個隱藏狀態(tài)。隱馬爾可夫模型的訓練過程是最大化似然,每個狀態(tài)產(chǎn)生的數(shù)據(jù)用一個概率分布來表示。只有當相似的連續(xù)信號盡可能歸類為同一狀態(tài)時,似然性可以盡可能大。
像一個盒子和一個球,我不 我不知道手是從哪個盒子里拿球的,但我知道我拿出球后看到的球,我問球來自哪個盒子的可能性。其中,盒子是隱藏的,球是可觀察的。盒子里有不同比例或分布的球,hmm中也有對應特征向量的隱藏狀態(tài)的概率分布。如果盒子里小球的分布符合高斯分布,hmm中隱藏狀態(tài)下的特征符合高斯分布,那么gmm混合高斯模型就是在模擬這種分布,可理解的表達式可以說是模擬隱藏狀態(tài)下可觀測特征的比例。it 只是一個盒子里三個球的比例列為3 : 2 : 1,hmm在隱藏狀態(tài)下有39個特征,也占了一個比例。
在gmm也有一個隱藏狀態(tài),特征向量不 我不知道它來自哪個部門。k1、k2和k3形成一個gmm。k1、k2、k3類似于box 1、box 2、box 3,類似于hmm中的state 1、state 2、state 3。
3概率計算問題
正向算法,反向算法,維特比
概率計算問題(評估問題、序列分類問題、可觀測性問題);
即給定模型λ = (a,b,π) λ = (a,b,π),觀測序列o={o1,o2,...ot}o={o1,o2,...ot},計算模型λ下觀測序列o出現(xiàn)的概率p(o|λ)。
1)直接法(未使用)
2)正向算法
正向算法的實現(xiàn):
3)反向算法
向后算法的實現(xiàn):
4)維特比算法(近似)
我們可以回溯到最優(yōu)狀態(tài)序列,找到最優(yōu)路徑的概率,而不是所有路徑的概率和p(o|λ)。
靈魂的拷問:計算最優(yōu)路徑的概率而不是所有路徑概率和p(o|λ)是否不準確?為什么可以替代?
ai大語音:在實際的語音識別中,是可以替換的。因為概率分布是尖銳的,即某個位置的概率會很大,其他的很小,最優(yōu)路徑的概率和所有路徑的概率差不多。那個最優(yōu)路徑的概率就像戰(zhàn)場上的將軍,游戲里的oss。戰(zhàn)力接近總戰(zhàn)力,所有路徑的概率和非常接近。
既然可以近似,那么兩種算法的概率應該差不多。比較程序中forward算法和viterbis算法得到的概率。
靈魂的拷問:一個0.13級和一個0.014級,這是不是差別不大?it 少了一個數(shù)量級。
ai大演講:當轉(zhuǎn)移矩陣和傳輸矩陣的概率差不是特別大的時候,可以 不用于近似。程序中的例子不具有代表性,與語音識別的例子也不相似。在大多數(shù)語音識別應用中,兩者的概率是相似和近似的。替換。
4解碼問題
維特比算法,近似算法
解碼問題(比對問題、預測問題、序列標記問題、隱藏狀態(tài)問題)
即給定模型λ = (a,b,π)和觀測序列o={o1,o2,...ot},找到最可能對應的狀態(tài)序列。需要基于動態(tài)規(guī)劃的維特比算法來解決這個問題。
維特比算法是一種最優(yōu)路徑算法。最佳路徑算法:
窮舉法
方法:計算所有可能的路徑,最優(yōu)路徑自然就出來了。
優(yōu)點:絕對可以找到最優(yōu)路徑。
缺點:計算量太大。
星形算法
方法:每一步只走最好的路(短視)。
優(yōu)點:計算速度快,這種貪婪或啟發(fā)式算法通常效果很好。
缺點:難以找到最優(yōu)解,陷入局部最優(yōu)。
波束搜索(波束搜索)
方法:在每一步中只取最好的前n條路徑。這里的n也叫波束寬度。它是對a*算法的改進。當n=1時,退化為a*算法,當n=n時,退化為窮舉法。
優(yōu)點:n設置好的話效果好。
缺點:波束寬度越大,找到最優(yōu)解的概率越大,相應的計算復雜度也越大。
1)維特比算法
方法:記錄每一時刻每一可能狀態(tài)下的前一最優(yōu)路徑的概率,同時記錄最優(yōu)路徑的前一狀態(tài)。不斷向后迭代,找到最后一個時間點最大概率值對應的狀態(tài),通過回溯找到最優(yōu)路徑。
注意:維特比算法只計算前進時的概率,記住后退時獲得最優(yōu)路徑。
算法實現(xiàn):
2)近似算法(不常用)
正向計算中近似算法最大,所以選擇這條路徑,即把單步最大的路徑組合成最優(yōu)路徑;維特比只計算和記憶向前,按最后最大概率回溯路徑。
5學習問題
維特比學習算法,鮑姆-韋爾奇算法
學習問題(訓練問題、參數(shù)估計、建模問題)
也就是說,給定觀察序列o={o1,o2,...ot},估計模型λ = (a,b,π)的參數(shù),使該模型下觀測序列的條件概率p(o|λ)最大化。需要baum-welch學習算法和基于em算法的viterbi學習算法來解決這個問題。
1)維特比學習算法(硬對準)
維特比算法需要先初始化一個hmm模型λ = (a,b,π)。
在語音識別的應用中,由于hmm是從左到右的模型,所以第一個必須是狀態(tài)一,即p(q0=1)=1。所以沒有pi參數(shù)。
1)鮑姆-韋爾奇學習計算方法(軟對齊)
同樣,在語音識別應用程序中也沒有pi。
附錄(魔鬼作家)
——————————————————回聲0-@ csdn博主 艾 遵循cc 4.0 by-sa版權協(xié)議。轉(zhuǎn)載請附上原出處鏈接和本聲明。原文鏈接: _ 42734492/文章/詳情/108114821
標簽:
算法概率
了解更多語音識別翻譯(語音識別在線翻譯器)相關內(nèi)容請關注本站點。
上一個:鋼筋套筒連接異?,F(xiàn)象及消除措施有哪些?
下一個:普洱茶的書籍有哪些呢?

普洱生茶的投茶量可依個人口味增減
wpsword表格自動換行在哪里(wpsword表格自動換行快捷鍵)
普洱熟茶投茶量切忌一成不變
普洱茶也有消暑的喝法
紅茶菌調(diào)節(jié)小鼠免疫功能的實驗研究
云南大葉荼無性系良種扦插育苗技術
溲疏的栽培技術
茶滋味泡不對?或許并非沖泡方式不對!口感不對
金立CN9008怎么截屏,三星手機怎么截屏啊n9008v
臍橙病蟲害無公害防治技術
十八禁 网站在线观看免费视频_2020av天堂网_一 级 黄 色 片免费网站_绝顶高潮合集Videos