21世紀(jì)經(jīng)濟(jì)報道記者白楊 北京報道
6月中旬,音視頻編解碼標(biāo)準(zhǔn)(AVS)工作組正式宣布,《信息技術(shù) 智能媒體編碼 第10部分:實時語音》(以下簡稱AVS3-P10)已經(jīng)完成FCD(Final Committee Draft)階段,即將正式對外發(fā)布。
AVS3-P10是全球首個系統(tǒng)性引入人工智能并實現(xiàn)真正意義上的低碼率下高質(zhì)量語音編碼標(biāo)準(zhǔn),為全球語音技術(shù)的發(fā)展帶來了革命性突破。
簡單來說,AVS3-P10僅需現(xiàn)有主流標(biāo)準(zhǔn)1/3的編碼碼率,就能實現(xiàn)同等清晰的音質(zhì)。這意味著,即使在電梯、地庫、隧道等網(wǎng)絡(luò)很差的環(huán)境,以及在“2G”網(wǎng)絡(luò)下,也能實現(xiàn)清晰流暢的語音通話。
該標(biāo)準(zhǔn)以騰訊首款神經(jīng)網(wǎng)絡(luò)語音編解碼器Penguins為原型,由騰訊提議啟動、推進(jìn)和維護(hù),并經(jīng)過AVS音頻組多家成員單位共同貢獻(xiàn)。
6月26日,作為AVS3-P10標(biāo)準(zhǔn)的起草人,騰訊會議天籟實驗室專家研究員肖瑋接受了21世紀(jì)經(jīng)濟(jì)報道記者的采訪,并向記者還原了Penguins從誕生到成為行業(yè)標(biāo)準(zhǔn)的全過程。
“聽得夠清”與“壓得夠小”兼得
如何在一定的帶寬占用下,盡可能地提高音頻質(zhì)量,或者在保持質(zhì)量情況下,盡可能地減少帶寬利用率?
在音頻編解碼領(lǐng)域,這始終是行業(yè)難題。肖瑋稱,“聽得夠清”和“壓得夠小”,就像一對蹺蹺板——如果音頻體積太大,弱網(wǎng)環(huán)境下就會導(dǎo)致通話卡頓;但如果壓得過度,音頻質(zhì)量受損,清晰度下降,就會聽不清。
為了解決這個問題,騰訊于2020年啟動研發(fā)Penguins編解碼器項目。據(jù)肖瑋介紹,該技術(shù)的核心思路是:先通過建立語音信號模型,捕捉音頻的核心特征,實現(xiàn)大幅度壓縮、降低體積;再借助深度學(xué)習(xí)網(wǎng)絡(luò),預(yù)測并重建語音中的細(xì)微結(jié)構(gòu),最終生成逼真的音頻波形。
這個場景依靠傳統(tǒng)音視頻技術(shù)已難以實現(xiàn),騰訊是將AI與傳統(tǒng)技術(shù)緊密融合,通過對算法研究、工程化、產(chǎn)品化層面的系統(tǒng)性創(chuàng)新,打破了傳統(tǒng)香農(nóng)定律的性能極限。
肖瑋表示,傳統(tǒng)的語音編碼器,包括AVS、ITU-T、3GPP、IETF等標(biāo)準(zhǔn)語音編碼器,在16-20kbps左右碼率時,能夠恢復(fù)出高質(zhì)量寬帶語音;在30-35kbps,可以恢復(fù)出高質(zhì)量超寬帶甚至全帶語音。然而,當(dāng)碼率進(jìn)一步降低,比如降到10kbps以下時,傳統(tǒng)語音編碼器恢復(fù)的質(zhì)量下降明顯。
而Penguins編解碼器實現(xiàn)了6kbps下的高質(zhì)量語音通信,且主觀質(zhì)量非常接近原始參考信號,可媲美國際主流的OPUS標(biāo)準(zhǔn)在20kbps的質(zhì)量。同時,在主觀質(zhì)量對標(biāo)傳統(tǒng)編碼的中高碼率情況下,Penguins的編碼效率可提升200%~300%。
2021年11月,Penguins編解碼器首次發(fā)布,并逐步落地到騰訊會議(駕駛模式及弱網(wǎng)模式)、QQ語音通話等騰訊產(chǎn)品當(dāng)中,目前已服務(wù)億級用戶。
從內(nèi)部技術(shù)到行業(yè)標(biāo)準(zhǔn)
在通信系統(tǒng)中,標(biāo)準(zhǔn)的意義重大。因為各廠商都傾向于部署標(biāo)準(zhǔn)的語音編解碼協(xié)議,以避免互聯(lián)互通的問題。
在成立的20多年里,AVS工作組已經(jīng)制定了三代音視頻編碼標(biāo)準(zhǔn),且每一代標(biāo)準(zhǔn)都會較前一代有大幅度性能提升。而在這些標(biāo)準(zhǔn)制定過程中,包括騰訊、阿里巴巴、華為、字節(jié)跳動等企業(yè)在內(nèi)的互聯(lián)網(wǎng)公司,扮演了至關(guān)重要的角色。
2023年3月,騰訊團(tuán)隊開始推動Penguins方案成為行業(yè)標(biāo)準(zhǔn)。在第85次AVS會議上,AVS工作組正式立項AVS3-P10實時語音編碼項目。
隨后,AVS音頻組審議了由騰訊提交的《AVS3-P10語音編碼參考模型候選技術(shù)方案》提案,并在2023年12月第 87 次 AVS 會議上,宣布AVS3-P10 WD 1.0通過全體會議審議。這意味著騰訊提交的技術(shù)方案,正式被確定為AVS3-P10實時語音編碼的RM0基線。
在今年3月舉辦的第88次AVS會議上,AVS音頻組組長、清華大學(xué)教授竇維蓓宣布AVS3-P10已經(jīng)完全滿足技術(shù)需求。緊接著在6月的第89次AVS工作組會議上,AVS3-P10完成FCD階段,正式成為了行業(yè)標(biāo)準(zhǔn)。
AVS工作組指出,“AVS3-P10 作為新一代語音編解碼技術(shù)標(biāo)準(zhǔn),是對AVS系列標(biāo)準(zhǔn)的重要補(bǔ)充。該標(biāo)準(zhǔn)是當(dāng)前業(yè)界的最高水平,將為用戶帶來更好的體驗”。
肖瑋向記者表示,最終的AVS3-P10標(biāo)準(zhǔn)不完全等于騰訊方案,因為在整個標(biāo)準(zhǔn)化過程中,除了騰訊主導(dǎo)的AI這部分以及系統(tǒng)架構(gòu)以外,還借鑒了AVS其他標(biāo)準(zhǔn)中的技術(shù),這些技術(shù)均是來自AVS音頻組成員單位包括高校和企業(yè)。
“標(biāo)準(zhǔn)的目的是達(dá)成共識?,F(xiàn)在AI技術(shù)這么火,提供了很多新范式,不同廠商如果有機(jī)會肯定都會做新的編碼器。騰訊推動AVS3-P10標(biāo)準(zhǔn),就是希望讓大家看到這樣一個新的技術(shù)方向”。肖瑋說。