生數(shù)科技發(fā)布Vidu Q3模型,實(shí)現(xiàn)16秒音視頻同步生成
2026-02-07 14:03 生數(shù)科技

生數(shù)科技發(fā)布Vidu Q3模型,實(shí)現(xiàn)16秒音視頻同步生成23

1月30日,生數(shù)科技發(fā)布了其視頻大模型Vidu的最新版本——Vidu Q3。這款被官方稱為“新一代模型”的產(chǎn)品,憑借全球首個(gè)支持16秒音視頻直出的能力,在國(guó)際權(quán)威AI基準(zhǔn)測(cè)試機(jī)構(gòu)Artificial Analysis的榜單中位列中國(guó)第一、全球第二,超越了Runway Gen-4.5和Google Veo 3.1等國(guó)際知名模型,僅以微弱差距落后于馬斯克旗下的xAI Grok系統(tǒng)。

對(duì)于普通用戶而言,Vidu Q3帶來的最直觀改變是“能說會(huì)演”。過去的AI視頻模型大多只能生成幾秒鐘的動(dòng)態(tài)畫面,且往往沒有同步的音頻,更像是一段會(huì)動(dòng)的“默片”。而Vidu Q3首次實(shí)現(xiàn)了“聲畫同出”,能夠生成包含同步語音、音效和動(dòng)態(tài)畫面的完整16秒視頻。

這16秒并非簡(jiǎn)單的畫面堆砌,而是具備了完整的起承轉(zhuǎn)合能力,足以講清一個(gè)微型故事或表達(dá)一種情緒沖突,使其從單純的“視覺素材生成器”進(jìn)化為能夠參與敘事的“內(nèi)容生產(chǎn)工具”。

這家備受矚目的企業(yè)——生數(shù)科技,成立于2023年3月,是一家典型的“清華系”創(chuàng)業(yè)公司,其核心團(tuán)隊(duì)源自清華大學(xué)人工智能研究院。成立之初,團(tuán)隊(duì)就確立了自研多模態(tài)通用大模型的技術(shù)路線。2024年4月,生數(shù)科技發(fā)布了中國(guó)首個(gè)全面對(duì)標(biāo)Sora的文生視頻大模型Vidu,一舉打破了國(guó)內(nèi)在長(zhǎng)視頻生成技術(shù)上的瓶頸,成為國(guó)產(chǎn)AI視頻大模型的領(lǐng)軍者。

放眼整個(gè)行業(yè),AI視頻技術(shù)正呈現(xiàn)出競(jìng)爭(zhēng)激烈的態(tài)勢(shì)。除了生數(shù)科技的Vidu,國(guó)內(nèi)外科技巨頭和初創(chuàng)企業(yè)也在加速布局,但各家的技術(shù)路徑和競(jìng)爭(zhēng)優(yōu)勢(shì)各有側(cè)重。

例如,美國(guó)的OpenAI發(fā)布的Sora,以其對(duì)物理世界的深刻理解、長(zhǎng)達(dá)60秒的視頻生成能力,重新定義了文生視頻的上限,盡管目前訪問受限且生成速度較慢,但其代表了行業(yè)未來的發(fā)展方向。谷歌發(fā)布的Veo 3.1,雖然在部分榜單上被Vidu Q3超越,但其API穩(wěn)定且價(jià)格合理,在全球范圍內(nèi)可用,是開發(fā)者集成的優(yōu)選。

在國(guó)內(nèi),快手自研的“可靈”模型以全場(chǎng)景優(yōu)勢(shì)在多項(xiàng)測(cè)評(píng)中斬獲最高分,其在物理仿真、風(fēng)格化創(chuàng)作等維度表現(xiàn)優(yōu)異;字節(jié)跳動(dòng)、阿里巴巴等科技巨頭則依托算力優(yōu)勢(shì)與完整生態(tài),構(gòu)建了從內(nèi)容創(chuàng)作到分發(fā)的全鏈條平臺(tái),字節(jié)跳動(dòng)的“即夢(mèng)3.0”和阿里巴巴的“通義萬象”系統(tǒng)分別在消費(fèi)級(jí)和產(chǎn)業(yè)級(jí)應(yīng)用中占據(jù)重要地位。

目前行業(yè)整體仍處于高速迭代的早期階段,面臨著技術(shù)、成本和應(yīng)用的多重挑戰(zhàn)。?

技術(shù)層面,雖然AI視頻生成技術(shù)已從“單點(diǎn)突破”邁向“多模態(tài)融合”,能夠生成包含復(fù)雜角色互動(dòng)、微表情變化的高質(zhì)量視頻內(nèi)容,但在物理規(guī)律模擬上仍存在局限性,如水珠運(yùn)動(dòng)、光影變化等細(xì)節(jié)難以精準(zhǔn)實(shí)現(xiàn),且在長(zhǎng)視頻連貫性上仍有瓶頸,30秒以上視頻的角色崩壞率較高。

成本方面,算力成本依然是制約行業(yè)發(fā)展的關(guān)鍵因素,盡管輕量化模型與國(guó)產(chǎn)AI芯片結(jié)合推動(dòng)了實(shí)時(shí)視頻處理在移動(dòng)端等邊緣場(chǎng)景的普及,但高質(zhì)量視頻的生成仍需消耗大量算力,導(dǎo)致成本居高不下。?

應(yīng)用層面,雖然AI視頻技術(shù)已滲透到影視、短視頻、直播電商等多個(gè)領(lǐng)域,但目前視頻生成在整體制作中的滲透率約14%,大多需多次生成與人工后期才能達(dá)到使用標(biāo)準(zhǔn),且面臨著版權(quán)和深度偽造風(fēng)險(xiǎn),行業(yè)監(jiān)管政策也在不斷完善,要求技術(shù)應(yīng)用更加合規(guī)和安全。

88.jpg