音頻技術(shù)迎來新標(biāo)準(zhǔn)：AI正重塑實時音頻傳輸體驗

2024年06月28日 11:11 21世紀(jì)經(jīng)濟(jì)報道 21財經(jīng)APP 白楊

這項標(biāo)準(zhǔn)讓用戶在2G網(wǎng)絡(luò)下也能開會。

21世紀(jì)經(jīng)濟(jì)報道記者白楊北京報道

6月中旬，音視頻編解碼標(biāo)準(zhǔn)（AVS）工作組正式宣布，《信息技術(shù) 智能媒體編碼第10部分：實時語音》（以下簡稱AVS3-P10）已經(jīng)完成FCD（Final Committee Draft）階段，即將正式對外發(fā)布。

AVS3-P10是全球首個系統(tǒng)性引入人工智能并實現(xiàn)真正意義上的低碼率下高質(zhì)量語音編碼標(biāo)準(zhǔn)，為全球語音技術(shù)的發(fā)展帶來了革命性突破。

簡單來說，AVS3-P10僅需現(xiàn)有主流標(biāo)準(zhǔn)1/3的編碼碼率，就能實現(xiàn)同等清晰的音質(zhì)。這意味著，即使在電梯、地庫、隧道等網(wǎng)絡(luò)很差的環(huán)境，以及在“2G”網(wǎng)絡(luò)下，也能實現(xiàn)清晰流暢的語音通話。

該標(biāo)準(zhǔn)以騰訊首款神經(jīng)網(wǎng)絡(luò)語音編解碼器Penguins為原型，由騰訊提議啟動、推進(jìn)和維護(hù)，并經(jīng)過AVS音頻組多家成員單位共同貢獻(xiàn)。

6月26日，作為AVS3-P10標(biāo)準(zhǔn)的起草人，騰訊會議天籟實驗室專家研究員肖瑋接受了21世紀(jì)經(jīng)濟(jì)報道記者的采訪，并向記者還原了Penguins從誕生到成為行業(yè)標(biāo)準(zhǔn)的全過程。

“聽得夠清”與“壓得夠小”兼得

如何在一定的帶寬占用下，盡可能地提高音頻質(zhì)量，或者在保持質(zhì)量情況下，盡可能地減少帶寬利用率？

在音頻編解碼領(lǐng)域，這始終是行業(yè)難題。肖瑋稱，“聽得夠清”和“壓得夠小”，就像一對蹺蹺板——如果音頻體積太大，弱網(wǎng)環(huán)境下就會導(dǎo)致通話卡頓；但如果壓得過度，音頻質(zhì)量受損，清晰度下降，就會聽不清。

為了解決這個問題，騰訊于2020年啟動研發(fā)Penguins編解碼器項目。據(jù)肖瑋介紹，該技術(shù)的核心思路是：先通過建立語音信號模型，捕捉音頻的核心特征，實現(xiàn)大幅度壓縮、降低體積；再借助深度學(xué)習(xí)網(wǎng)絡(luò)，預(yù)測并重建語音中的細(xì)微結(jié)構(gòu)，最終生成逼真的音頻波形。

這個場景依靠傳統(tǒng)音視頻技術(shù)已難以實現(xiàn)，騰訊是將AI與傳統(tǒng)技術(shù)緊密融合，通過對算法研究、工程化、產(chǎn)品化層面的系統(tǒng)性創(chuàng)新，打破了傳統(tǒng)香農(nóng)定律的性能極限。

肖瑋表示，傳統(tǒng)的語音編碼器，包括AVS、ITU-T、3GPP、IETF等標(biāo)準(zhǔn)語音編碼器，在16-20kbps左右碼率時，能夠恢復(fù)出高質(zhì)量寬帶語音；在30-35kbps，可以恢復(fù)出高質(zhì)量超寬帶甚至全帶語音。然而，當(dāng)碼率進(jìn)一步降低，比如降到10kbps以下時，傳統(tǒng)語音編碼器恢復(fù)的質(zhì)量下降明顯。

而Penguins編解碼器實現(xiàn)了6kbps下的高質(zhì)量語音通信，且主觀質(zhì)量非常接近原始參考信號，可媲美國際主流的OPUS標(biāo)準(zhǔn)在20kbps的質(zhì)量。同時，在主觀質(zhì)量對標(biāo)傳統(tǒng)編碼的中高碼率情況下，Penguins的編碼效率可提升200%~300%。

2021年11月，Penguins編解碼器首次發(fā)布，并逐步落地到騰訊會議（駕駛模式及弱網(wǎng)模式）、QQ語音通話等騰訊產(chǎn)品當(dāng)中，目前已服務(wù)億級用戶。

從內(nèi)部技術(shù)到行業(yè)標(biāo)準(zhǔn)

在通信系統(tǒng)中，標(biāo)準(zhǔn)的意義重大。因為各廠商都傾向于部署標(biāo)準(zhǔn)的語音編解碼協(xié)議，以避免互聯(lián)互通的問題。

在成立的20多年里，AVS工作組已經(jīng)制定了三代音視頻編碼標(biāo)準(zhǔn)，且每一代標(biāo)準(zhǔn)都會較前一代有大幅度性能提升。而在這些標(biāo)準(zhǔn)制定過程中，包括騰訊、阿里巴巴、華為、字節(jié)跳動等企業(yè)在內(nèi)的互聯(lián)網(wǎng)公司，扮演了至關(guān)重要的角色。

2023年3月，騰訊團(tuán)隊開始推動Penguins方案成為行業(yè)標(biāo)準(zhǔn)。在第85次AVS會議上，AVS工作組正式立項AVS3-P10實時語音編碼項目。

隨后，AVS音頻組審議了由騰訊提交的《AVS3-P10語音編碼參考模型候選技術(shù)方案》提案，并在2023年12月第 87 次 AVS 會議上，宣布AVS3-P10 WD 1.0通過全體會議審議。這意味著騰訊提交的技術(shù)方案，正式被確定為AVS3-P10實時語音編碼的RM0基線。

在今年3月舉辦的第88次AVS會議上，AVS音頻組組長、清華大學(xué)教授竇維蓓宣布AVS3-P10已經(jīng)完全滿足技術(shù)需求。緊接著在6月的第89次AVS工作組會議上，AVS3-P10完成FCD階段，正式成為了行業(yè)標(biāo)準(zhǔn)。

AVS工作組指出，“AVS3-P10 作為新一代語音編解碼技術(shù)標(biāo)準(zhǔn)，是對AVS系列標(biāo)準(zhǔn)的重要補(bǔ)充。該標(biāo)準(zhǔn)是當(dāng)前業(yè)界的最高水平，將為用戶帶來更好的體驗”。

肖瑋向記者表示，最終的AVS3-P10標(biāo)準(zhǔn)不完全等于騰訊方案，因為在整個標(biāo)準(zhǔn)化過程中，除了騰訊主導(dǎo)的AI這部分以及系統(tǒng)架構(gòu)以外，還借鑒了AVS其他標(biāo)準(zhǔn)中的技術(shù)，這些技術(shù)均是來自AVS音頻組成員單位包括高校和企業(yè)。

“標(biāo)準(zhǔn)的目的是達(dá)成共識?，F(xiàn)在AI技術(shù)這么火，提供了很多新范式，不同廠商如果有機(jī)會肯定都會做新的編碼器。騰訊推動AVS3-P10標(biāo)準(zhǔn)，就是希望讓大家看到這樣一個新的技術(shù)方向”。肖瑋說。

音頻技術(shù)迎來新標(biāo)準(zhǔn)：AI正重塑實時音頻傳輸體驗

2024年06月28日 11:11 21世紀(jì)經(jīng)濟(jì)報道 21財經(jīng)APP 白楊

相關(guān)新聞

熱文排行

財經(jīng)日歷

數(shù)讀

每日智庫看點

關(guān)注我們

公告