震撼！無(wú)需依賴語(yǔ)言模型，豆包打破AI視覺(jué)次元壁

2025年02月11日 20:03 21世紀(jì)經(jīng)濟(jì)報(bào)道 21財(cái)經(jīng)APP 雷晨

21世紀(jì)經(jīng)濟(jì)報(bào)道記者雷晨北京報(bào)道

繼DeepSeek大模型之后，國(guó)產(chǎn)大模型再度實(shí)現(xiàn)突破。

2月10日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)公眾號(hào)發(fā)文宣布，與北京交通大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)聯(lián)合提出的視頻生成實(shí)驗(yàn)?zāi)Ｐ汀癡ideoWorld”，在業(yè)界首次實(shí)現(xiàn)無(wú)需依賴語(yǔ)言模型，即可認(rèn)知世界。該項(xiàng)目代碼與模型已開(kāi)源。

據(jù)介紹，VideoWorld僅通過(guò)“視覺(jué)信息”，即瀏覽視頻數(shù)據(jù)，就能讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。并且，在僅300M參數(shù)量下，VideoWorld已取得可觀的模型表現(xiàn)。

近年來(lái)，字節(jié)跳動(dòng)持續(xù)加碼多模態(tài)技術(shù)研發(fā)，憑借其在視頻、圖像和文本等多領(lǐng)域的深度融合，為AI應(yīng)用場(chǎng)景的拓展注入新動(dòng)能。

多位機(jī)構(gòu)分析師認(rèn)為，隨著技術(shù)門檻的降低和生態(tài)合作的深化，AI應(yīng)用有望加速繁榮，賦能千行百業(yè)，開(kāi)啟智能化新時(shí)代。

用“眼”學(xué)習(xí)的大模型

VideoWorld的獨(dú)特之處在于，它僅憑借“視覺(jué)信息”，也就是通過(guò)瀏覽大量的視頻數(shù)據(jù)，就能讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。

在人工智能領(lǐng)域，以往的許多模型往往依賴語(yǔ)言模型或者標(biāo)簽數(shù)據(jù)來(lái)學(xué)習(xí)知識(shí)，例如Sora、DALL-E、Midjourney等，而VideoWorld打破了這一傳統(tǒng)模式。

在模型構(gòu)建方面，研發(fā)團(tuán)隊(duì)構(gòu)建了視頻圍棋對(duì)戰(zhàn)和視頻機(jī)器人模擬操控兩個(gè)實(shí)驗(yàn)環(huán)境。在訓(xùn)練過(guò)程中，VideoWorld模型通過(guò)“觀看”包含大量視頻演示數(shù)據(jù)的離線數(shù)據(jù)集來(lái)進(jìn)行學(xué)習(xí)。其架構(gòu)采用的是樸素自回歸模型，主要包含VQ-VAE編碼器—解碼器和自回歸Transformer架構(gòu)。這種架構(gòu)設(shè)計(jì)使得模型能夠有效地處理視頻數(shù)據(jù)中的時(shí)空信息，為后續(xù)的推理和決策提供基礎(chǔ)。?

然而，在研究初期，團(tuán)隊(duì)遇到了一個(gè)難題，即視頻序列知識(shí)挖掘效率低于文本形式。為了解決這一問(wèn)題，團(tuán)隊(duì)引入了潛在動(dòng)態(tài)模型（LDM），該模型由以德國(guó)慕尼黑大學(xué)的研究團(tuán)隊(duì)為首的多個(gè)研究團(tuán)隊(duì)共同構(gòu)建。LDM能夠?qū)g視覺(jué)變化壓縮為緊湊的潛在編碼，這不僅提升了知識(shí)挖掘效率，還能保留豐富的視覺(jué)信息，讓VideoWorld可以捕捉視覺(jué)序列中的長(zhǎng)期依賴關(guān)系，從而在長(zhǎng)期推理和規(guī)劃方面表現(xiàn)得更加出色。

據(jù)豆包大模型團(tuán)隊(duì)介紹，在不依賴任何強(qiáng)化學(xué)習(xí)搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制的前提下，VideoWorld達(dá)到了專業(yè)5段9x9圍棋水平。

此外，VideoWorld還能夠在多種環(huán)境中執(zhí)行機(jī)器人任務(wù)。在機(jī)器人模擬操控實(shí)驗(yàn)環(huán)境中，它可以根據(jù)“觀看”到的視頻數(shù)據(jù)，學(xué)習(xí)如何控制機(jī)器人完成各種任務(wù)，如移動(dòng)、抓取物品等。

“VideoWorld通過(guò)僅依賴‘視覺(jué)信息’的方式，讓機(jī)器能夠掌握推理、規(guī)劃和決策等復(fù)雜能力，這無(wú)疑是人工智能技術(shù)在視覺(jué)學(xué)習(xí)領(lǐng)域的一次重要革新?！北P古智庫(kù)高級(jí)研究員江瀚對(duì)記者表示。

不過(guò)，盡管VideoWorld在圍棋和模擬機(jī)器人操控場(chǎng)景中表現(xiàn)卓越，但豆包大模型團(tuán)隊(duì)同時(shí)指出，在真實(shí)世界的應(yīng)用中，它還面臨高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。

AI應(yīng)用生態(tài)加速繁榮

近年來(lái)，字節(jié)跳動(dòng)在多模態(tài)技術(shù)研發(fā)上持續(xù)加大投入，從2023年2月探索大模型，到8月開(kāi)啟“豆包”公測(cè)，再到2024年5月豆包正式對(duì)外服務(wù)并掀起大模型價(jià)格戰(zhàn)，豆包大模型在全球范圍內(nèi)吸引了大量用戶，在2024年11月的全球月活躍排行榜上位列第二。

2月7日，字節(jié)跳動(dòng)旗下即夢(mèng)AI發(fā)布新功能上線預(yù)告片，展示了全新的多模態(tài)視頻生成模型OmniHuman，僅需輸入一張圖片和一段音頻，就能生成生動(dòng)的AI視頻。而VideoWorld的發(fā)布，進(jìn)一步拓展了字節(jié)跳動(dòng)在多模態(tài)領(lǐng)域的技術(shù)版圖。

豆包大模型團(tuán)隊(duì)還表示，VideoWorld項(xiàng)目代碼與模型已開(kāi)源。

開(kāi)源不僅是代碼和模型的共享，更意味著構(gòu)建一個(gè)創(chuàng)新生態(tài)。以往，開(kāi)發(fā)大模型需要巨額資金投入、強(qiáng)大的算力支撐以及深厚的技術(shù)積累，這使得許多中小開(kāi)發(fā)者和研究團(tuán)隊(duì)難以涉足。

而開(kāi)源大模型的出現(xiàn)，打破了這一壁壘，降低了技術(shù)門檻，讓更多的創(chuàng)新力量得以參與到大模型的開(kāi)發(fā)與應(yīng)用中。

此前，在OpenAI毅然選擇閉源策略后，眾多大模型廠商紛紛跟風(fēng)，閉源仿佛成了新的行業(yè)共識(shí)。而近期橫空出世的DeepSeek卻反其道而行之，將高性價(jià)比的R1模型開(kāi)源。

緊隨其后，VideoWorld也選擇開(kāi)源，折射出中國(guó)AI產(chǎn)業(yè)從單一技術(shù)突破向應(yīng)用生態(tài)構(gòu)建的戰(zhàn)略轉(zhuǎn)向。

可見(jiàn)，產(chǎn)業(yè)格局的變革已悄然啟動(dòng)。

江瀚告訴記者，此次VideoWorld的推出將推動(dòng)相關(guān)產(chǎn)業(yè)的快速發(fā)展?！袄纾谧詣?dòng)駕駛、智能制造、智能安防等領(lǐng)域，VideoWorld的應(yīng)用將極大地提升系統(tǒng)的智能化水平，推動(dòng)相關(guān)產(chǎn)業(yè)的快速發(fā)展?！彼硎?。

震撼！無(wú)需依賴語(yǔ)言模型，豆包打破AI視覺(jué)次元壁

2025年02月11日 20:03 21世紀(jì)經(jīng)濟(jì)報(bào)道 21財(cái)經(jīng)APP 雷晨

用“眼”學(xué)習(xí)的大模型

AI應(yīng)用生態(tài)加速繁榮

相關(guān)新聞

熱文排行

財(cái)經(jīng)日歷

數(shù)讀

每日智庫(kù)看點(diǎn)

關(guān)注我們

公告

震撼！無(wú)需依賴語(yǔ)言模型，豆包打破AI視覺(jué)次元壁

2025年02月11日 20:03 21世紀(jì)經(jīng)濟(jì)報(bào)道 21財(cái)經(jīng)APP 雷晨

用“眼”學(xué)習(xí)的大模型

AI應(yīng)用生態(tài)加速繁榮

相關(guān)新聞

熱文排行

財(cái)經(jīng)日歷

數(shù)讀

每日智庫(kù)看點(diǎn)

關(guān)注我們

公告

震撼！無(wú)需依賴語(yǔ)言模型，豆包打破AI視覺(jué)次元壁