本文主要介紹自動增益控制agc課程設(shè)計(自動增益控制英文縮寫),下面一起看看自動增益控制agc課程設(shè)計(自動增益控制英文縮寫)相關(guān)資訊。
音視頻會議、麥子直播、短視頻已經(jīng)成為人們 人們的工作、教學(xué)和娛樂都離不開音視頻實時通信等關(guān)鍵技術(shù)的廣泛應(yīng)用。在音頻方面,可以預(yù)見的是,客戶的多樣性 業(yè)務(wù)形式、環(huán)境的復(fù)雜性和接入設(shè)備的差異會帶來一系列問題。我們意識到單一場景的技術(shù)和策略已經(jīng)不能滿足日益暴露的在線問題,唯一的出路就是音頻預(yù)處理3a(aec,ans,agc)算法走向全場景適配。為了解決復(fù)雜環(huán)境下的噪聲問題,我們推出了阿里云降噪-語音增強算法,強化了傳統(tǒng)降噪技術(shù)在非穩(wěn)態(tài)噪聲抑制方面的缺陷;為了解決音量問題,我們推出了ali agc-自動增益控制算法,大大改善了不同環(huán)境、設(shè)備、場景下音量不均勻的問題,比傳統(tǒng)的webrtc agc更加智能。
什么?;現(xiàn)有的webrtc agc算法有什么問題?在《詳解 webrtc 高音質(zhì)低延時的背后 — agc(自動增益控制)》 ;的文章,深入解讀了webrtc agc不同模式的核心原理?;诠潭ㄔ鲆婺J降臄U展數(shù)/模自適應(yīng)模式存在響應(yīng)過度和不及時、補償增益估計不準確等穩(wěn)定性問題。我贏了。;這里不展開技術(shù)細節(jié)。從方向看,webrtc agc s追求改編的目標是對的,也是我們首先需要優(yōu)化的部分。我先來看看我們在網(wǎng)上遇到過哪些痛點:
(1)音量不均勻的問題在多人會議中,音頻采集的效果受到設(shè)備差異、環(huán)境、發(fā)言者本人等多種因素的影響。如果只采用固定增益的方案,在聽感上會出現(xiàn)不同揚聲器音量不均勻的問題,持續(xù)的音量過低或突然的音量過大只能通過頻繁調(diào)節(jié)設(shè)備播放音量按鈕來解決。在直播/短視頻之間切換時,難免會遇到類似的問題。
(2)環(huán)境中的噪音被過度放大。在開放的環(huán)境中,如辦公室和商場,當說話者打開麥克風(fēng),但沒有。;t說話時,周圍的噪聲很可能被認為是揚聲器 的聲音。傳統(tǒng)的自適應(yīng)方案會觸發(fā)增益補償,導(dǎo)致整個過程噪聲明顯,嚴重影響會議和直播的體驗。
(3)連麥等娛樂場景的直播,背景音樂波動的問題。在連麥等娛樂場景播放背景音樂是很常見的。很多主播會用聲卡,一般業(yè)務(wù)層選擇關(guān)閉agc,把調(diào)節(jié)音量的權(quán)利交給主播。宏觀上,它可以 t解決不同直播之間音量差異大的問題,主播可以 甚至檢測不到音爆和低音量。所以這類場景需要開啟agc。而傳統(tǒng)的增益補償策略并沒有區(qū)分人聲和背景音樂,必然會帶來未來音樂音量的波動是觀眾無法接受的,用音樂控制現(xiàn)場是agc面臨的最大挑戰(zhàn)。
因此,魯棒自適應(yīng)模擬/數(shù)字增益是非?;镜?,它只能解決(1)中的非均勻音量問題。我們需要添加其他方法或模塊來處理特定場景下的音量問題。
aliagc算法優(yōu)化方向阿里云視頻云音頻技術(shù)團隊為了追求極致的音視頻通話體驗,agc是音頻3a算法中的最后一個環(huán)節(jié),我們提出以下要求:
(1)增益補償和自適應(yīng)調(diào)整策略響應(yīng)迅速,實現(xiàn)二階收斂;
②增益范圍大,可以覆蓋大部分移動和pc設(shè)備;
③在噪音、音樂等復(fù)雜場景下,穩(wěn)定性好,不觸發(fā)失調(diào);
(4)功耗低,音質(zhì)無損;
為了實現(xiàn)上述目標,我們在webrtc中基于agc框架進行了以下主要優(yōu)化(詳見《詳解 webrtc 高音質(zhì)低延時的背后 — agc(自動增益控制)》):
①數(shù)字增益自適應(yīng)方案:新增vad/包絡(luò)檢測模塊,實時計算音頻信號音量,用于快速確定最大增益上限,從而指導(dǎo)當前數(shù)字增益調(diào)整;
②模擬增益自適應(yīng)方案:基于檢測到的人聲/噪底量,用于指導(dǎo)模擬增益調(diào)整,使采集到的噪底和人聲音量控制在目標范圍內(nèi);
③場景自適應(yīng)方案:增加語音/噪音/音樂等多任務(wù)檢測模塊,動態(tài)估計當前噪音水平、音樂等狀態(tài),用于激活相應(yīng)的調(diào)整策略,使算法適應(yīng)當前大多數(shù)應(yīng)用場景。
④音頻統(tǒng)計數(shù)據(jù)的構(gòu)建:增加了語音/噪音音量統(tǒng)計、事件檢測等數(shù)據(jù),為其他模塊提供準確的數(shù)據(jù)支持。同時,通過數(shù)據(jù)上報渠道完善了埋點,豐富了后臺儀表盤。
aliagc算法的效果就是基于以上難題。讓 讓我們來看看優(yōu)化的aliagc的效果:
(1)收斂速度快,采集量極小時,需要5s-8s;對于-30db →- 3db;正常情況下:-20db →-3db只需要3s-5s。
反之,當采集量較大,數(shù)字增益嚴重過剩時,向下調(diào)整的收斂速度也很快。絕大多數(shù)場景基本都是一句話就收斂了。
(2)數(shù)字增益自適應(yīng)更新能力從前面的案例可以看出,初期音量極小(-34db),中后期音量比較大。從輸出結(jié)果可以看出,最終的輸出音量基本都在[-1db,-3db]的目標范圍內(nèi),聽感上沒有差別。
讓 讓我們看一個更極端的例子:聲音由大到小交替變化。如果增益沒有及時自適應(yīng)調(diào)整,我們會看到峰值被限幅器拉平,小音量沒有及時調(diào)高。要在簡單的文章里看到)。優(yōu)化后可以看到整體輸出音量穩(wěn)定,波形保持完好。
同時我們錄制了一個多人會議中參與者f在本地播放的音頻數(shù)據(jù),參與者a到e的最終推送音量基本平衡到-3db左右。對于參與者f來說,他的主觀聽覺基本相同。
(3)噪聲環(huán)境下的增益控制。類似地,我們選擇了一段在真實會議中錄制的流式音頻數(shù)據(jù)。在演講者發(fā)言之前,其他同事正在環(huán)境中開會。由于傳統(tǒng)自適應(yīng)方案缺乏對嘈雜環(huán)境的監(jiān)控,其他同事的聲音也大大增加。優(yōu)化后的方案避免了這種情況,自適應(yīng)邏輯只在說話人開始說話時才被激活,從而避免了周圍嘈雜聲音增益過大的問題。
同時,對于原始采集的本底噪聲較大,存在嘈雜語音的情況,說話人在說話前增益保持相對較好,不存在因為agc的增益而導(dǎo)致本底噪聲被大幅放大的問題。當說話人開始說話時,觸發(fā)增益的自適應(yīng)調(diào)整,最終增益到合適的位置。
(4)在娛樂現(xiàn)場獲得控制權(quán)。我們選擇了一段主播和背景音樂交替出現(xiàn)的素材。在傳統(tǒng)的增益補償方案中,人聲和音樂是一視同仁的,最終都得到改善,會發(fā)現(xiàn)背景音樂有波動。在優(yōu)化后的方案中,由于音樂檢測模塊性能良好,會引導(dǎo)agc控制音樂部分的增益,輸出結(jié)果符合預(yù)期。整體來說,增益只是根據(jù)主播聲音的部分自適應(yīng)的。
全場景適配,aliagc算法的后續(xù)優(yōu)化目標。阿里云視頻云音頻技術(shù)團隊提供的音頻3a算法(不限于3a)是alirtc 的推送流。所有的音頻指標都不能有明顯的缺點,三者在復(fù)雜的應(yīng)用場景中缺一不可,共同影響音頻質(zhì)量和主觀體驗。我們可以 不要單獨優(yōu)化某個算法。比如agc增益過大,不僅會增加噪聲,還會增加對端收集的回波的非線性成分,影響回波抵消的效果。另外,降噪能力差也會限制agc能達到的最大增益上限。同時,在嘈雜的環(huán)境中,我們可以 t單純依靠agc來控制嘈雜的聲音。畢竟檢測中存在誤檢的可能。如果默認使用智能降噪,這類場景下agc的壓力會大大降低。
在后續(xù)的優(yōu)化中,我們會根據(jù)場景逐步細化3a的配置,整體看3a的最終效果。對于單個算法的優(yōu)化,各大廠商的差距在縮小,個性化、差異化的創(chuàng)新顯得尤為重要。一方面,aliagc算法需要積極探索在線badcase,不斷加強穩(wěn)定性建設(shè);另一方面,要深化機器學(xué)習(xí)、陣列等技術(shù)的探索和應(yīng)用,豐富產(chǎn)品的亮點。
視頻云技術(shù)與應(yīng)用;是你最應(yīng)得的。關(guān)注音視頻技術(shù)的官方賬號,每周推送來自阿里云的實用技術(shù)文章,在這里與音視頻領(lǐng)域的一流工程師交流。官方賬號后臺回復(fù)【技術(shù)】可以加入阿里云視頻云產(chǎn)品技術(shù)交流群,與行業(yè)大咖探討音視頻技術(shù),獲取更多行業(yè)最新資訊。
標簽:
增益音量
了解更多自動增益控制agc課程設(shè)計(自動增益控制英文縮寫)相關(guān)內(nèi)容請關(guān)注本站點。