2月4日,面壁智能正式開(kāi)源其新一代全模態(tài)旗艦?zāi)P汀狹iniCPM-o 4.5。該模型以9B(90億)的較小參數(shù)規(guī)模,實(shí)現(xiàn)了對(duì)全模態(tài)理解、視覺(jué)、文檔解析及語(yǔ)音生成等任務(wù)的行業(yè)領(lǐng)先水平(SOTA)覆蓋,標(biāo)志著端側(cè)AI在交互能力與運(yùn)行效率上取得關(guān)鍵進(jìn)展。
MiniCPM-o 4.5的核心突破在于其“原生全雙工”架構(gòu),徹底告別了傳統(tǒng)AI“你問(wèn)我答”的回合制交互。它能夠?qū)崿F(xiàn)“邊看、邊聽(tīng)、主動(dòng)說(shuō)”的即時(shí)自由對(duì)話。這意味著,在持續(xù)輸出語(yǔ)音或文本的同時(shí),模型仍能不間斷地接收和處理新的視覺(jué)與聽(tīng)覺(jué)信息。
例如,在廚房場(chǎng)景中,它能一邊回答問(wèn)題,一邊通過(guò)攝像頭觀察貨架變化,實(shí)時(shí)告知水果價(jià)格;在公交場(chǎng)景中,它能主動(dòng)感知到站信息并及時(shí)提醒。這種能力讓AI從一個(gè)被動(dòng)的“工具”轉(zhuǎn)變?yōu)橐粋€(gè)主動(dòng)的“智能體”。
除了交互范式的革新,該模型在效率與效果上也做到了平衡。它解決了長(zhǎng)語(yǔ)音合成中音色不統(tǒng)一、語(yǔ)氣生硬的難題,并支持基于幾秒樣本的聲音克隆與角色扮演。尤為值得一提的是,MiniCPM-o 4.5已成功在天數(shù)智芯、華為昇騰等6款國(guó)產(chǎn)芯片上完成端到端推理優(yōu)化,這意味著它不僅聰明,而且“吃得少、跑得快”,非常適合在算力有限的手機(jī)、汽車、機(jī)器人等終端設(shè)備上本地化運(yùn)行,兼顧了低延遲與高隱私。
面壁智能,成立于2022年8月,是一家脫胎于清華大學(xué)NLP實(shí)驗(yàn)室的AI獨(dú)角獸。聯(lián)合創(chuàng)始人兼首席科學(xué)家劉知遠(yuǎn)是清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘教授;聯(lián)合創(chuàng)始人兼CEO李大海則是知乎前合伙人兼CTO。
公司自成立起便聚焦于“端側(cè)大模型”路線,致力于通過(guò)提升模型密度,在有限算力下實(shí)現(xiàn)更強(qiáng)智能。其MiniCPM系列模型已在汽車、手機(jī)等領(lǐng)域?qū)崿F(xiàn)規(guī)?;瘧?yīng)用,并與多家頭部企業(yè)建立合作。
從行業(yè)角度看,AI技術(shù)的發(fā)展重心正從單純的“云端參數(shù)競(jìng)賽”轉(zhuǎn)向“端側(cè)應(yīng)用落地”。業(yè)界共識(shí)逐漸形成:模型的密度、能效比以及在真實(shí)物理環(huán)境中的自主行動(dòng)能力,將成為衡量其價(jià)值的關(guān)鍵指標(biāo)。
高密度模型讓AI在終端設(shè)備上“跑得動(dòng)、用得起”成為現(xiàn)實(shí),而全雙工、多模態(tài)感知等能力則是AI向自主智能體演進(jìn)的基礎(chǔ)。同時(shí),伴隨AI生成內(nèi)容的激增,如何構(gòu)建有效的安全與治理體系,已成為行業(yè)必須面對(duì)的重要課題。



