海光昇騰寒武紀(jì),誰(shuí)能吃下推理算力爆發(fā)的紅利?
2026-03-10 16:48 寒武紀(jì)

海光昇騰寒武紀(jì),誰(shuí)能吃下推理算力爆發(fā)的紅利?23

3月9日,上海人工智能實(shí)驗(yàn)室推出的DeepLink多元算力混合推理加速方案引發(fā)行業(yè)關(guān)注,海光信息攜手該方案開(kāi)展混合調(diào)度與協(xié)同推理測(cè)試的消息也隨之傳出。

這一事件本身并不令人意外,DeepLink此前已完成對(duì)昇騰、平頭哥、沐曦、天數(shù)智芯、寒武紀(jì)等10余家國(guó)產(chǎn)算力的適配,海光的加入只是補(bǔ)齊了版圖上的又一塊拼圖。

真正值得思考的問(wèn)題是,當(dāng)DeepLink這樣的異構(gòu)調(diào)度平臺(tái)試圖讓國(guó)產(chǎn)芯片“心往一處想”時(shí),各家廠商的差異化路徑究竟意味著什么?

1.三條路線,三種生存邏輯

如果將國(guó)產(chǎn)AI芯片的主要玩家放在一起審視,可以清晰地看到三條截然不同的技術(shù)路線。

華為昇騰走的是全棧自研的道路,從昇騰910B/C系列芯片到CANN底層算子庫(kù),再到MindSpore框架,形成了一個(gè)完全自主的閉環(huán)體系。

這種模式的戰(zhàn)略?xún)r(jià)值在于不受任何外部生態(tài)制約,昇騰384超節(jié)點(diǎn)可實(shí)現(xiàn)300PFlops集群算力,在超大規(guī)模訓(xùn)練場(chǎng)景中穩(wěn)坐國(guó)產(chǎn)頭把交椅。但代價(jià)同樣明顯,開(kāi)發(fā)者需要適應(yīng)一套全新的工具鏈,遷移成本不可忽視。

與昇騰形成鮮明對(duì)比的是海光信息。憑借x86指令集授權(quán),海光形成了“C86+GPGPU”的產(chǎn)品矩陣,其DCU(深度計(jì)算處理器)在架構(gòu)層面天然兼容x86服務(wù)器生態(tài)。

對(duì)于金融、能源等政企客戶(hù)而言,這意味著能以最小的架構(gòu)改動(dòng)成本將國(guó)產(chǎn)算力嵌入現(xiàn)有IT基礎(chǔ)設(shè)施。

更關(guān)鍵的是,海光DCU支持“類(lèi)CUDA”環(huán)境,PyTorch、TensorFlow等主流框架上的業(yè)務(wù)可以實(shí)現(xiàn)“無(wú)感遷移”。

這種“借勢(shì)”策略降低了用戶(hù)入場(chǎng)門(mén)檻,但也意味著海光始終在別人定義的規(guī)則下游戲。

第三股力量來(lái)自寒武紀(jì)、沐曦、摩爾線程等企業(yè)。

寒武紀(jì)憑借思元590的345TFLOPS FP16算力和96GB HBM2e顯存,在性能參數(shù)上緊咬英偉達(dá)A100。

沐曦的曦云C500則強(qiáng)調(diào)FP8精度與千卡集群能力,且其MXMACA軟件棧在API層面實(shí)現(xiàn)對(duì)CUDA的高度兼容,已支持超過(guò)6000個(gè)CUDA應(yīng)用。

摩爾線程作為“國(guó)產(chǎn)GPU第一股”,選擇了更接近英偉達(dá)早期風(fēng)格的全功能路線,用AI智算、專(zhuān)業(yè)圖形、桌面級(jí)圖形全覆蓋,2024年?duì)I收4.38億元中AI智算貢獻(xiàn)3.36億元,證明這條路也能走通。

2.軟件棧:真正的分水嶺尚未到來(lái)

如果只看硬件參數(shù),國(guó)產(chǎn)芯片的進(jìn)步有目共睹。但熟悉行業(yè)的人都知道,AI芯片的競(jìng)爭(zhēng)早已不是算力指標(biāo)的堆砌,而是軟件棧的成熟度之爭(zhēng)。

英偉達(dá)CUDA構(gòu)筑的護(hù)城河,本質(zhì)上是數(shù)百萬(wàn)開(kāi)發(fā)者、數(shù)十年的代碼積累以及從驅(qū)動(dòng)到框架的完整工具鏈所形成的網(wǎng)絡(luò)效應(yīng)。

目前國(guó)產(chǎn)廠商應(yīng)對(duì)生態(tài)壁壘的策略大致分為三類(lèi)。

華為選擇自建,用全棧能力吸引開(kāi)發(fā)者“用腳投票”;海光選擇兼容,讓CUDA代碼能以最低成本遷移運(yùn)行;更多廠商則寄望于DeepLink這類(lèi)異構(gòu)平臺(tái),希望借助中間件屏蔽底層硬件差異。

三種路徑各有擁躉,但一個(gè)不容回避的現(xiàn)實(shí)是,兼容模式固然能快速導(dǎo)入存量應(yīng)用,卻可能使國(guó)產(chǎn)平臺(tái)長(zhǎng)期停留在“生態(tài)附庸”的位置。

更值得警惕的是,若未來(lái)CUDA生態(tài)在兼容性上設(shè)置新的技術(shù)壁壘,當(dāng)前這種依附式發(fā)展的可持續(xù)性將面臨考驗(yàn)。

從DeepLink實(shí)測(cè)數(shù)據(jù)看,異構(gòu)調(diào)度確實(shí)能帶來(lái)實(shí)實(shí)在在的性能提升。在千卡規(guī)模推理集群中,對(duì)比單芯片方案,時(shí)延TTFT最大優(yōu)化34.5%,推理吞吐最高提升32%。

但這類(lèi)優(yōu)化更多解決的是“能用”層面的問(wèn)題,距離“好用”仍有距離。在長(zhǎng)尾模型、科學(xué)計(jì)算等細(xì)分領(lǐng)域,國(guó)產(chǎn)芯片的軟件棧優(yōu)化空間依然巨大。

3.推理時(shí)代的價(jià)值重估

2026年,AI產(chǎn)業(yè)的重心正從訓(xùn)練向推理遷移。驅(qū)動(dòng)這一轉(zhuǎn)變的“三駕馬車(chē)”已經(jīng)成型:應(yīng)用全面鋪開(kāi)帶來(lái)日均50萬(wàn)億Token的消耗規(guī)模,推理模型的興起使單次調(diào)用token顯著增加,Agentic AI則將推理由單次請(qǐng)求演變?yōu)檫B續(xù)過(guò)程。

對(duì)于國(guó)產(chǎn)芯片而言,這意味著競(jìng)爭(zhēng)邏輯正在發(fā)生深刻變化,訓(xùn)練場(chǎng)景追求單卡算力的極致,而推理場(chǎng)景更看重性?xún)r(jià)比、時(shí)延和能效比。

這一變化對(duì)不同廠商意味著不同的機(jī)會(huì)窗口。

海光憑借x86兼容性,在存量信創(chuàng)市場(chǎng)占據(jù)有利身位;昇騰依托超節(jié)點(diǎn)能力,繼續(xù)卡位超大模型訓(xùn)練高地;云天勵(lì)飛等新玩家則押注PD分離架構(gòu),試圖通過(guò)預(yù)填充和解碼階段的專(zhuān)用芯片設(shè)計(jì),在推理效率上形成差異化優(yōu)勢(shì)。

但無(wú)論選擇哪條路徑,所有廠商都將面臨同一個(gè)終極考驗(yàn),即能否在完全市場(chǎng)化的場(chǎng)景中,讓客戶(hù)主動(dòng)選擇而非被動(dòng)接受?

DeepLink混推方案的真正價(jià)值,或許不在于它能讓多少款芯片協(xié)同工作,而在于它揭示了國(guó)產(chǎn)算力產(chǎn)業(yè)正在進(jìn)入一個(gè)新階段——從各自為戰(zhàn)走向系統(tǒng)整合。

當(dāng)異構(gòu)調(diào)度成為可能,用戶(hù)的算力采購(gòu)邏輯將從“選哪家芯片”轉(zhuǎn)向“如何組合最優(yōu)”。這場(chǎng)競(jìng)爭(zhēng)的下半場(chǎng),比拼的不再是誰(shuí)的參數(shù)更漂亮,而是誰(shuí)能在軟硬協(xié)同、生態(tài)兼容和成本控制之間找到那個(gè)動(dòng)態(tài)平衡點(diǎn)。

88.jpg