震撼!無(wú)需依賴語(yǔ)言模型,豆包打破AI視覺(jué)次元壁

2025年02月11日 20:03   21世紀(jì)經(jīng)濟(jì)報(bào)道 21財(cái)經(jīng)APP   雷晨

21世紀(jì)經(jīng)濟(jì)報(bào)道記者雷晨 北京報(bào)道

繼DeepSeek大模型之后,國(guó)產(chǎn)大模型再度實(shí)現(xiàn)突破。

2月10日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)公眾號(hào)發(fā)文宣布,與北京交通大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)聯(lián)合提出的視頻生成實(shí)驗(yàn)?zāi)P汀癡ideoWorld”,在業(yè)界首次實(shí)現(xiàn)無(wú)需依賴語(yǔ)言模型,即可認(rèn)知世界。該項(xiàng)目代碼與模型已開(kāi)源。

據(jù)介紹,VideoWorld僅通過(guò)“視覺(jué)信息”,即瀏覽視頻數(shù)據(jù),就能讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。并且,在僅300M參數(shù)量下,VideoWorld已取得可觀的模型表現(xiàn)。

近年來(lái),字節(jié)跳動(dòng)持續(xù)加碼多模態(tài)技術(shù)研發(fā),憑借其在視頻、圖像和文本等多領(lǐng)域的深度融合,為AI應(yīng)用場(chǎng)景的拓展注入新動(dòng)能。

多位機(jī)構(gòu)分析師認(rèn)為,隨著技術(shù)門檻的降低和生態(tài)合作的深化,AI應(yīng)用有望加速繁榮,賦能千行百業(yè),開(kāi)啟智能化新時(shí)代。

用“眼”學(xué)習(xí)的大模型

VideoWorld的獨(dú)特之處在于,它僅憑借“視覺(jué)信息”,也就是通過(guò)瀏覽大量的視頻數(shù)據(jù),就能讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。

在人工智能領(lǐng)域,以往的許多模型往往依賴語(yǔ)言模型或者標(biāo)簽數(shù)據(jù)來(lái)學(xué)習(xí)知識(shí),例如Sora、DALL-E、Midjourney等,而VideoWorld打破了這一傳統(tǒng)模式。

在模型構(gòu)建方面,研發(fā)團(tuán)隊(duì)構(gòu)建了視頻圍棋對(duì)戰(zhàn)和視頻機(jī)器人模擬操控兩個(gè)實(shí)驗(yàn)環(huán)境。在訓(xùn)練過(guò)程中,VideoWorld模型通過(guò)“觀看”包含大量視頻演示數(shù)據(jù)的離線數(shù)據(jù)集來(lái)進(jìn)行學(xué)習(xí)。其架構(gòu)采用的是樸素自回歸模型,主要包含VQ-VAE編碼器—解碼器和自回歸Transformer架構(gòu)。這種架構(gòu)設(shè)計(jì)使得模型能夠有效地處理視頻數(shù)據(jù)中的時(shí)空信息,為后續(xù)的推理和決策提供基礎(chǔ)。?

然而,在研究初期,團(tuán)隊(duì)遇到了一個(gè)難題,即視頻序列知識(shí)挖掘效率低于文本形式。為了解決這一問(wèn)題,團(tuán)隊(duì)引入了潛在動(dòng)態(tài)模型(LDM),該模型由以德國(guó)慕尼黑大學(xué)的研究團(tuán)隊(duì)為首的多個(gè)研究團(tuán)隊(duì)共同構(gòu)建。LDM能夠?qū)g視覺(jué)變化壓縮為緊湊的潛在編碼,這不僅提升了知識(shí)挖掘效率,還能保留豐富的視覺(jué)信息,讓VideoWorld可以捕捉視覺(jué)序列中的長(zhǎng)期依賴關(guān)系,從而在長(zhǎng)期推理和規(guī)劃方面表現(xiàn)得更加出色。

據(jù)豆包大模型團(tuán)隊(duì)介紹,在不依賴任何強(qiáng)化學(xué)習(xí)搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制的前提下,VideoWorld達(dá)到了專業(yè)5段9x9圍棋水平。

此外,VideoWorld還能夠在多種環(huán)境中執(zhí)行機(jī)器人任務(wù)。在機(jī)器人模擬操控實(shí)驗(yàn)環(huán)境中,它可以根據(jù)“觀看”到的視頻數(shù)據(jù),學(xué)習(xí)如何控制機(jī)器人完成各種任務(wù),如移動(dòng)、抓取物品等。

“VideoWorld通過(guò)僅依賴‘視覺(jué)信息’的方式,讓機(jī)器能夠掌握推理、規(guī)劃和決策等復(fù)雜能力,這無(wú)疑是人工智能技術(shù)在視覺(jué)學(xué)習(xí)領(lǐng)域的一次重要革新?!北P古智庫(kù)高級(jí)研究員江瀚對(duì)記者表示。

不過(guò),盡管VideoWorld在圍棋和模擬機(jī)器人操控場(chǎng)景中表現(xiàn)卓越,但豆包大模型團(tuán)隊(duì)同時(shí)指出,在真實(shí)世界的應(yīng)用中,它還面臨高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。

AI應(yīng)用生態(tài)加速繁榮

近年來(lái),字節(jié)跳動(dòng)在多模態(tài)技術(shù)研發(fā)上持續(xù)加大投入,從2023年2月探索大模型,到8月開(kāi)啟“豆包”公測(cè),再到2024年5月豆包正式對(duì)外服務(wù)并掀起大模型價(jià)格戰(zhàn),豆包大模型在全球范圍內(nèi)吸引了大量用戶,在2024年11月的全球月活躍排行榜上位列第二。

2月7日,字節(jié)跳動(dòng)旗下即夢(mèng)AI發(fā)布新功能上線預(yù)告片,展示了全新的多模態(tài)視頻生成模型OmniHuman,僅需輸入一張圖片和一段音頻,就能生成生動(dòng)的AI視頻。而VideoWorld的發(fā)布,進(jìn)一步拓展了字節(jié)跳動(dòng)在多模態(tài)領(lǐng)域的技術(shù)版圖。

豆包大模型團(tuán)隊(duì)還表示,VideoWorld項(xiàng)目代碼與模型已開(kāi)源。

開(kāi)源不僅是代碼和模型的共享,更意味著構(gòu)建一個(gè)創(chuàng)新生態(tài)。以往,開(kāi)發(fā)大模型需要巨額資金投入、強(qiáng)大的算力支撐以及深厚的技術(shù)積累,這使得許多中小開(kāi)發(fā)者和研究團(tuán)隊(duì)難以涉足。

而開(kāi)源大模型的出現(xiàn),打破了這一壁壘,降低了技術(shù)門檻,讓更多的創(chuàng)新力量得以參與到大模型的開(kāi)發(fā)與應(yīng)用中。

此前,在OpenAI毅然選擇閉源策略后,眾多大模型廠商紛紛跟風(fēng),閉源仿佛成了新的行業(yè)共識(shí)。而近期橫空出世的DeepSeek卻反其道而行之,將高性價(jià)比的R1模型開(kāi)源。

緊隨其后,VideoWorld也選擇開(kāi)源,折射出中國(guó)AI產(chǎn)業(yè)從單一技術(shù)突破向應(yīng)用生態(tài)構(gòu)建的戰(zhàn)略轉(zhuǎn)向。

可見(jiàn),產(chǎn)業(yè)格局的變革已悄然啟動(dòng)。

江瀚告訴記者,此次VideoWorld的推出將推動(dòng)相關(guān)產(chǎn)業(yè)的快速發(fā)展?!袄纾谧詣?dòng)駕駛、智能制造、智能安防等領(lǐng)域,VideoWorld的應(yīng)用將極大地提升系統(tǒng)的智能化水平,推動(dòng)相關(guān)產(chǎn)業(yè)的快速發(fā)展?!彼硎?。

關(guān)注我們