文心X1.1實(shí)測:這個“會思考”的AI到底有多聰明?
作者 | Yoky郵箱 | yokyliu@pingwest.com
什么樣的AI模型才算真正“智能”?是能解復(fù)雜數(shù)學(xué)題的推理高手,還是能精準(zhǔn)執(zhí)行指令的智能助理?在當(dāng)前大模型發(fā)展中,這似乎成了一道二選一的難題:推理模型往往在工具調(diào)用上表現(xiàn)平平,而智能體模型則在深度思考時力不從心。
9月9日,在2025年WAVE SUMMIT深度學(xué)習(xí)開發(fā)者大會上,百度發(fā)布了文心大模型X1.1。作為備受關(guān)注的“深度思考模型”升級版,X1.1宣稱能夠在一個統(tǒng)一架構(gòu)下,既保持深度推理能力,又具備智能體的執(zhí)行效率。
據(jù)百度CTO王海峰現(xiàn)場介紹,X1.1的核心突破在于“迭代式混合強(qiáng)化學(xué)習(xí)訓(xùn)練框架”:通過混合強(qiáng)化學(xué)習(xí)機(jī)制,讓模型在訓(xùn)練過程中同時優(yōu)化推理任務(wù)和智能體任務(wù)的表現(xiàn),并借助自蒸餾數(shù)據(jù)的迭代式生產(chǎn),持續(xù)強(qiáng)化模型的綜合能力。
數(shù)據(jù)顯示,相比前代X1模型,X1.1在關(guān)鍵維度實(shí)現(xiàn)了顯著提升:事實(shí)性提升34.8%,指令遵循提升12.5%,智能體能力提升9.6%。在多個權(quán)威基準(zhǔn)評測中,X1.1整體表現(xiàn)超越DeepSeek R1-0528,與GPT-5、Gemini 2.5 Pro等國際頂尖模型效果持平。
X1.1的實(shí)際能力邊界在哪里?它是否真的找到了AI模型能力平衡的新路徑?我們在核心場景下進(jìn)行了深度評測,來看看文心X1.1的真實(shí)實(shí)力。
1
讓X1.1當(dāng)一天打工人:糾錯、寫梗、做方案
相比于解決模型產(chǎn)生幻覺的,人類產(chǎn)生“幻覺”的場景往往更多,那么當(dāng)人類提出一個錯誤的問題,模型是否能夠不過渡順從,而是客觀校正?
為了測試文心X1.1在這方面的表現(xiàn),我們設(shè)計了一個充滿錯誤的復(fù)合問題:我打算重走成吉思汗水路,從蒙古烏蘭巴托坐船直下珠江,聽說元朝就有這條運(yùn)河,沿途還能看兵馬俑和西湖,三天到廣州,對吧?
在這個刻意構(gòu)造的錯誤信息測試中,我們故意拋出了一個看似有理、實(shí)則荒謬的歷史地理混合問題,X1.1沒有簡單地說“您說錯了”,而是系統(tǒng)性地拆解了問題中的多個錯誤維度:從元朝運(yùn)河體系、地理連接性、歷史景點(diǎn)位置到交通可行性,逐一澄清,體現(xiàn)了深度推理能力。
在糾正錯誤的同時,X1.1校準(zhǔn)了從京杭大運(yùn)河的具體路徑,還提供了現(xiàn)實(shí)可行的替代建議——京杭大運(yùn)河北京-杭州段、珠江流域廣州-桂林段。
當(dāng)然,推理能力固然重要,但語言理解和表達(dá)是深度思考模型的基礎(chǔ),我們測試了一道經(jīng)典題目來看看X1.1的深度理解和表達(dá)能力。
從結(jié)果來看,X1.1成功捕捉了魯迅雜文的核心特征,從“大約比當(dāng)年'賽先生'初來時更熱鬧些”的開篇,到“舊瓶裝新酒”、“破棉絮裹著的爛草芯”等比喻,都頗有魯迅式的辛辣和生動。特別是“昔人鑄劍十年方成利器,今人卻想三日造出屠龍刀”這樣的對比句式,既有古典韻味又切中時弊。
另一方面對于當(dāng)AI創(chuàng)業(yè)生態(tài)的觀察相當(dāng)?shù)轿唬瑥娜谫YPPT的顛覆性創(chuàng)新到產(chǎn)品實(shí)際的一觸即潰,從概念炒作的元宇宙、大模型到技術(shù)底子的“挖三尺便見了底”,這些描述反映了對行業(yè)現(xiàn)狀的深度理解。
從技術(shù)角度來看,這一測試展現(xiàn)了X1.1在多個維度上的綜合能力:文本生成的流暢度、特定風(fēng)格的精準(zhǔn)模仿,我們還嘗試了一個更具挑戰(zhàn)性的任務(wù):讓X1.1模仿最近在小紅書上爆火的“AI發(fā)瘋文學(xué)”風(fēng)格,以「量子力學(xué)害了我女兒」為題創(chuàng)作一段文本。這種網(wǎng)絡(luò)文體以其夸張的情緒表達(dá)、跳躍性的邏輯關(guān)聯(lián)和戲劇化的敘述方式著稱,對模型的風(fēng)格捕捉能力和創(chuàng)意表達(dá)提出了極高要求。
我們只提示了模型:你是一位網(wǎng)絡(luò)文學(xué)家,擅長模仿并創(chuàng)作一種名為“發(fā)瘋文學(xué)”的互聯(lián)網(wǎng)文體。請你學(xué)習(xí)并模仿“大模型發(fā)瘋文學(xué)”的成功范例,然后圍繞【測試主題】進(jìn)行創(chuàng)作。在沒有給任何范例的前提下,它通過搜索和自我學(xué)習(xí)完成了一篇地道的“胡說八道”。
最后,也是最具挑戰(zhàn)性的測試環(huán)節(jié),我們考察了X1.1的Agent能力——即面對復(fù)雜的現(xiàn)實(shí)任務(wù)時,能否像專業(yè)顧問一樣提供系統(tǒng)性的解決方案。
我們拋給它一個真實(shí)而復(fù)雜的任務(wù):硅星人計劃在本月舉辦一場面向全球AI從業(yè)者的嘉年華活動(ACC),需要X1.1從零開始制定完整的籌備計劃和主視覺設(shè)計方案。這不是簡單的信息檢索或文本生成,而是需要統(tǒng)籌規(guī)劃、創(chuàng)意設(shè)計、資源協(xié)調(diào)等多重能力的綜合考驗(yàn)。
令人驚喜的是,X1.1的表現(xiàn)遠(yuǎn)超預(yù)期。它不僅根據(jù)我們提供的基礎(chǔ)信息規(guī)劃出了詳細(xì)的活動日程,還主動推薦了幾位業(yè)界重量級嘉賓,甚至為每位嘉賓量身定制了適合的參與環(huán)節(jié)和演講主題。
更有意思的是,它還設(shè)計了幾個頗具創(chuàng)意的特色環(huán)節(jié),其中“深夜酒吧對話”這個環(huán)節(jié)我們還真有,看來AI對行業(yè)從業(yè)者的社交需求把握得相當(dāng)精準(zhǔn)。
我們還讓X1.1設(shè)計了主視覺海報,雖然稍顯簡單,但整個藍(lán)紫色的配色方案又與我們“不謀而合”。
整體來看,文心X1.1在這輪評測中展現(xiàn)出了比以往更強(qiáng)的實(shí)戰(zhàn)能力。從糾錯到創(chuàng)作再到策劃的跨度,體現(xiàn)的不僅是技術(shù)能力的全面性,更是對不同場景的精準(zhǔn)判斷力。X1.1知道什么時候該嚴(yán)肅地糾正錯誤,什么時候該放飛創(chuàng)意,什么時候該系統(tǒng)性地解決實(shí)際問題。
1
思行合一:思維鏈與行動鏈的頂點(diǎn)融合
當(dāng)我們與X1.1對話時發(fā)現(xiàn),它可以兼顧長思考和工具調(diào)用兩種能力,成為真正有想法的Agent模型。
這項(xiàng)技術(shù)創(chuàng)新也在海外被開發(fā)者認(rèn)可,文心1.1的出現(xiàn)開發(fā)者自發(fā)與GPT、Claude、Gemini進(jìn)行對比,當(dāng)發(fā)現(xiàn)效果表現(xiàn)的更加優(yōu)秀時,直呼“Baidu is back!”。
之所以能取得如此突破性的效果,背后文心大模型X1.1的技術(shù)創(chuàng)新核心,在于采用其迭代式混合強(qiáng)化學(xué)習(xí)訓(xùn)練框架。該框架的獨(dú)特之處在于雙重優(yōu)化:一方面通過混合強(qiáng)化學(xué)習(xí)同時通用提升任務(wù)和智能體任務(wù)的效果,打破了傳統(tǒng)訓(xùn)練中兩類任務(wù)相互抵消的技術(shù)瓶頸;另外通過自我調(diào)整的數(shù)據(jù)迭代式生產(chǎn)及訓(xùn)練,不斷提升模型整體效果,形成了改進(jìn)的自我閉環(huán)機(jī)制。
這種訓(xùn)練范式的創(chuàng)新意義在于,傳統(tǒng)模型往往在思維推理和行動執(zhí)行之間存在斷層,而X1.1通過將兩個鏈條有機(jī)融合,讓模型能進(jìn)行深度的邏輯推理,從而準(zhǔn)確的將思維結(jié)果轉(zhuǎn)化為具體的執(zhí)行動作。它不再將推理能力和智能體能力視為兩個獨(dú)立的技術(shù)路徑,而是在統(tǒng)一的最終框架下實(shí)現(xiàn)良好優(yōu)化。
而基于指令驗(yàn)證器的強(qiáng)化學(xué)習(xí)技術(shù)則專門針對復(fù)雜指令遵循場景進(jìn)行優(yōu)化。通過自動構(gòu)建指令檢查清單并驗(yàn)證,模型在復(fù)雜指令遵循方面的效果明顯提升。該機(jī)制可以比喻為模型內(nèi)置了一個“質(zhì)量檢查員”,能夠在執(zhí)行過程中實(shí)時驗(yàn)證是否理解并執(zhí)行了用戶的復(fù)雜指令,從而大幅降低了執(zhí)行偏差的風(fēng)險。
同時在后訓(xùn)練的過程中引入知識一致性驗(yàn)證的強(qiáng)化學(xué)習(xí)技術(shù)得以解決事實(shí)性問題。在訓(xùn)練過程中,系統(tǒng)不斷校驗(yàn)后訓(xùn)練模型和預(yù)訓(xùn)練模型知識的一致性,確保模型在獲得新能力的同時不會丟失原有的知識基礎(chǔ),模型的事實(shí)性得到了后續(xù)的提升。
如此復(fù)雜的技術(shù)創(chuàng)新能夠成功落地,文心大模型能力拓展和效率提升,離不開飛槳文心的聯(lián)合優(yōu)化。X1.1基于飛槳深度學(xué)習(xí)框架進(jìn)行訓(xùn)練,充分利用了飛槳在大模型訓(xùn)練方面的技術(shù)優(yōu)勢。
在訓(xùn)練層面,最新發(fā)布的飛槳框架v3.2在計算、并行策略、原生容錯能力三個方面進(jìn)一步升級。
在基礎(chǔ)計算性能層面,飛槳提出了存算重疊的稀疏掩碼注意力計算FlashMask V3,極致優(yōu)化Attention的計算效率,同時還實(shí)現(xiàn)了高效的FP8混合精度效果無損訓(xùn)練技術(shù)。
在分布式并行策略層面,提出了動態(tài)自適應(yīng)的顯存卸載策略,實(shí)現(xiàn)存算最優(yōu)均衡,結(jié)合飛槳創(chuàng)新設(shè)計的顯存友好的流水線并行調(diào)度,進(jìn)一步降低顯存開銷。
對于大規(guī)模集群訓(xùn)練場景,借助框架原生的容錯能力,實(shí)現(xiàn)了大規(guī)模集群訓(xùn)練容錯系統(tǒng),可在不影響訓(xùn)練效率的前提下在線監(jiān)測靜默數(shù)據(jù)損壞等難以察覺的故障,并實(shí)現(xiàn)了高可用的檢查點(diǎn)容災(zāi)方法,降低中斷恢復(fù)損失。
經(jīng)過優(yōu)化,文心X1.1及4.5系列模型均獲得了優(yōu)異的性能表現(xiàn),并在ERNIE-4.5-300B-A47B上取得了47%的MFU。
從實(shí)驗(yàn)室的技術(shù)突破到行業(yè)應(yīng)用的工程實(shí)踐,飛槳正在全面降低大模型訓(xùn)練、推理、部署、服務(wù)的應(yīng)用門檻??梢哉f,這種框架與模型的深度聯(lián)合優(yōu)化,正是百度在大模型技術(shù)路徑上的特色和優(yōu)勢之一。
1
結(jié)尾:
通過對文心大模型X1.1的深度評測,我們觀察到這一產(chǎn)品的技術(shù)進(jìn)步背后,實(shí)際體現(xiàn)的是百度四層AI架構(gòu)的協(xié)同作用。
從昆侖芯片、飛槳深度學(xué)習(xí)平臺、文心大模型到應(yīng)用,百度在技術(shù)棧的各層都有領(lǐng)先業(yè)界的關(guān)鍵自研技術(shù),實(shí)現(xiàn)了層與層反饋,端到端優(yōu)化,大幅提升效率。在框架層,飛槳是百度自主研發(fā)的中國首個開源開放的產(chǎn)業(yè)級深度學(xué)習(xí)平臺,包括核心框架、產(chǎn)業(yè)級模型庫、開發(fā)套件、工具組件,以及學(xué)習(xí)和實(shí)訓(xùn)社區(qū),能夠標(biāo)準(zhǔn)化、自動化地支撐模型生產(chǎn)和應(yīng)用。在模型層,文心系列在模型層承載了迭代式混合強(qiáng)化學(xué)習(xí)等算法創(chuàng)新,應(yīng)用層產(chǎn)品則實(shí)現(xiàn)了技術(shù)能力向用戶價值的轉(zhuǎn)化。
大模型能力的擴(kuò)展和效率的提升,帶來了更前瞻、更有想象力的創(chuàng)新應(yīng)用。本次WAVE SUMMIT在發(fā)布X1.1的同時展示了慧播星數(shù)字人等應(yīng)用層產(chǎn)品,體現(xiàn)了百度技術(shù)架構(gòu)的實(shí)際應(yīng)用價值。
慧播星背后是百度研發(fā)的劇本驅(qū)動多模協(xié)同的數(shù)字人技術(shù),實(shí)現(xiàn)了語言、聲音和形象的協(xié)調(diào)一致。在百度慧播星的應(yīng)用實(shí)踐中,數(shù)字人直播的線上表現(xiàn)超過了真人。此前,羅永浩數(shù)字人直播首秀GMV突破行業(yè)新紀(jì)錄,部分核心品類帶貨量超過真人直播??梢哉f,這套數(shù)字人技術(shù)的落地應(yīng)用正是基于文心大模型的最佳實(shí)踐。
從技術(shù)發(fā)展路徑來看,數(shù)字人等應(yīng)用的落地過程實(shí)踐了AI技術(shù)從通用能力向?qū)I(yè)的轉(zhuǎn)化機(jī)制。通用大模型語言提供理解和生成的基礎(chǔ)能力,通過特定領(lǐng)域數(shù)據(jù)的精細(xì)化形成專業(yè)化功能,最終以產(chǎn)品形態(tài)服務(wù)于具體行業(yè)場景。
這種技術(shù)轉(zhuǎn)化路線體現(xiàn)了應(yīng)用百度在AI產(chǎn)業(yè)化中的技術(shù)架構(gòu),從底層硬件到上層應(yīng)用的各個方面都對整體技術(shù)能力的提升從發(fā)揮作用,構(gòu)成了技術(shù)研發(fā)到商業(yè)應(yīng)用的完整應(yīng)用鏈條。
點(diǎn)個“愛心”,再走 吧
>