姚順雨交出的首份研究成果,或成為騰訊AI決戰(zhàn)獲勝關(guān)鍵
2026-02-07 18:34 姚順雨

姚順雨交出的首份研究成果,或成為騰訊AI決戰(zhàn)獲勝關(guān)鍵23

2026年春節(jié)未至,國內(nèi)AI大廠的用戶爭奪戰(zhàn)已率先打響,騰訊元寶大手筆發(fā)紅包,阿里千問推出30億免單活動(dòng),字節(jié)豆包依托春晚流量做內(nèi)容生成,各大廠商紛紛燒錢搶占市場。

但相較于短期的營銷動(dòng)作,騰訊此前挖來前OpenAI研究員、清華姚班的姚順雨,或許才是其布局AI賽道的長遠(yuǎn)之計(jì)。

近日,姚順雨執(zhí)掌騰訊AI后交出首個(gè)署名研究成果,由騰訊混元團(tuán)隊(duì)聯(lián)合復(fù)旦大學(xué)完成,這份聚焦大模型上下文學(xué)習(xí)能力的研究,直指AI“聽不懂人話”的核心痛點(diǎn),也讓騰訊在與國內(nèi)外廠商的AI競爭中,走出了一條差異化的技術(shù)攻堅(jiān)路線。

這份研究將目光對(duì)準(zhǔn)了大模型上下文處理技術(shù),得出的結(jié)論令人意外:當(dāng)把大模型從記背知識(shí)的“背書模式”,切換到根據(jù)新信息實(shí)時(shí)推理的“現(xiàn)學(xué)現(xiàn)賣模式”時(shí),即便是目前全球最先進(jìn)的AI模型,正確率也僅有23.7%。

這一發(fā)現(xiàn)直接解釋了普通用戶使用AI時(shí)遇到的“死腦筋”“胡說八道”等問題,而上下文處理能力,也成為當(dāng)下全球大模型的共同難題。

要理解這一研究的價(jià)值,需先看清大模型的兩大運(yùn)作階段。

第一階段是預(yù)訓(xùn)練,模型通過學(xué)習(xí)互聯(lián)網(wǎng)海量靜態(tài)數(shù)據(jù)積累通用知識(shí),這是其回答常規(guī)問題的基礎(chǔ),但這些知識(shí)僅截止到訓(xùn)練完成前,無法適配動(dòng)態(tài)的真實(shí)世界。

第二階段是情境學(xué)習(xí),也就是上下文處理,要求AI跳出預(yù)訓(xùn)練的知識(shí)儲(chǔ)備,根據(jù)用戶給出的全新、專屬信息實(shí)時(shí)推理判斷,比如依據(jù)公司內(nèi)部會(huì)議紀(jì)要、游戲新活動(dòng)規(guī)則作答。

可以說,上下文處理能力是AI的靈魂,一旦處理不好,AI就會(huì)脫離具體規(guī)則編造答案,出現(xiàn)常見的“幻覺”問題。

33.png

為測(cè)試大模型的上下文學(xué)習(xí)能力,混元團(tuán)隊(duì)打造了CL-bench評(píng)測(cè)體系,構(gòu)建了近2000個(gè)從未在互聯(lián)網(wǎng)公開的全新情境,讓模型在無通用知識(shí)可參考的情況下作答。測(cè)試結(jié)果顯示,表現(xiàn)最好的GPT-5.1(High)正確率僅23.7%,Claude Opus 4.5約21.1%,國內(nèi)的千問、豆包等模型正確率也在10%-14%之間,所有測(cè)試模型的平均正確率僅17.2%。?

這意味著,當(dāng)要求AI只根據(jù)給出的新信息作答時(shí),絕大多數(shù)情況下都會(huì)出錯(cuò),如同固執(zhí)的學(xué)生無視黑板上的新規(guī)則,仍按舊知識(shí)答題。

研究還揭示了大模型上下文學(xué)習(xí)能力薄弱的兩大原因:一是預(yù)訓(xùn)練知識(shí)過于根深蒂固,面對(duì)新信息時(shí)無法有效抑制舊認(rèn)知;二是復(fù)雜邏輯推演能力不足,即便能處理超長文本,也難以從海量信息中精準(zhǔn)提取關(guān)鍵,簡單的知識(shí)檢索尚能應(yīng)對(duì),一旦涉及復(fù)雜推理,正確率便會(huì)暴跌。

而這一痛點(diǎn),也成為國內(nèi)外AI廠商的競爭分水嶺,各家的攻堅(jiān)方向因自身生態(tài)截然不同。

國內(nèi)來看,阿里千問依托電商、本地生活的完整履約體系,核心攻堅(jiān)大模型與B端商業(yè)體系的整合能力,其30億免單活動(dòng)就是考驗(yàn)?zāi)P驮趯?shí)體消費(fèi)場景的落地執(zhí)行,而非底層的上下文處理;

字節(jié)豆包背靠短視頻生態(tài),側(cè)重AI生成內(nèi)容的能力,爭奪用戶注意力時(shí)長,技術(shù)發(fā)力點(diǎn)更多在多模態(tài)內(nèi)容創(chuàng)作、實(shí)時(shí)交互體驗(yàn)上;

百度文心一言則堅(jiān)守搜索核心,重點(diǎn)提升大模型的知識(shí)檢索和通用問答效率,圍繞搜索場景做技術(shù)優(yōu)化。

這幾家大廠的技術(shù)布局均圍繞自身核心生態(tài),在大模型上下文處理這一底層痛點(diǎn)上,尚未有深度的專項(xiàng)研究和攻堅(jiān)。

海外廠商則走上了另一條路,OpenAI、Google雖在模型參數(shù)、長上下文窗口上持續(xù)發(fā)力,比如Google Gemini支持200萬tokens的超長文本、GPT-4-turbo有128k tokens處理能力,但此次測(cè)試顯示,Gemini 3 Pro正確率僅15.8%。

可見其雖提升了上下文窗口的長度,卻忽視了模型對(duì)新信息的實(shí)時(shí)推理能力,陷入“能裝下更多信息,卻讀不懂信息”的困境。

而騰訊之所以聚焦這一技術(shù)痛點(diǎn),與其自身的業(yè)務(wù)布局密不可分。和其他廠商不同,騰訊的核心業(yè)務(wù)扎根于社交、內(nèi)容領(lǐng)域,同時(shí)布局游戲與企業(yè)服務(wù),這些場景對(duì)AI的上下文處理能力要求極為苛刻。

微信、QQ的碎片化對(duì)話流,需要AI精準(zhǔn)理解封閉語境中的人際關(guān)系和隱含邏輯;游戲場景要求AI根據(jù)實(shí)時(shí)局勢(shì)做出反應(yīng),而非機(jī)械背誦預(yù)訓(xùn)練內(nèi)容;企業(yè)微信、騰訊會(huì)議則需要AI基于私有文檔做精準(zhǔn)分析,通用知識(shí)在此不僅無用,還可能因“幻覺”造成誤導(dǎo)。

各大廠的AI營銷戰(zhàn)只是短期的用戶爭奪,而姚順雨的這份研究,讓騰訊跳出了“生態(tài)適配”的固有競爭思路,直擊全球大模型的核心技術(shù)痛點(diǎn)。

對(duì)坐擁海量應(yīng)用場景的騰訊而言,一個(gè)能在復(fù)雜上下文中保持邏輯嚴(yán)密的AI模型,遠(yuǎn)比只會(huì)死記硬背知識(shí)的模型更具商業(yè)價(jià)值,而這一差異化的技術(shù)布局,也成為騰訊決戰(zhàn)AI賽道的關(guān)鍵一步。

88.jpg