智東西編譯 程茜編輯 云鵬
智東西9月5日消息,9月4日,字節(jié)Seed發(fā)布了原生GUI智能體UI-TARS-2,其可以自主操作電腦、手機(jī)完成搜索、創(chuàng)建網(wǎng)頁(yè)、搜集新聞、創(chuàng)建查詢工具、玩小游戲等諸多任務(wù),相關(guān)論文在9月2日發(fā)表于arXiv預(yù)印本平臺(tái)。
在GUI基準(zhǔn)測(cè)試中,UI-TARS-2多項(xiàng)測(cè)試中超過了OpenAI和Claude Agent,同時(shí)其玩15款小游戲的水平已經(jīng)達(dá)到人類水平的60%。
字節(jié)跳動(dòng)放出的Demo中,UI-TARS-2一口子完成了搜索字節(jié)跳動(dòng)Seed 1.6新聞并部署網(wǎng)頁(yè)的任務(wù)。這一提示詞是“搜索關(guān)于字節(jié)跳動(dòng)Seed1.6模型的新聞,然后以現(xiàn)代風(fēng)格編寫一個(gè)網(wǎng)頁(yè)并部署”。
UI-TARS-2會(huì)先分解這一需求,包括搜索模型相關(guān)新聞、便攜現(xiàn)代風(fēng)格網(wǎng)頁(yè)、部署網(wǎng)頁(yè)三個(gè)任務(wù)。首先其通過LinkReader搜索了新聞,了解模型的核心特征,然后為網(wǎng)頁(yè)創(chuàng)建項(xiàng)目目錄、選擇合適的設(shè)計(jì)方法、規(guī)劃網(wǎng)頁(yè)結(jié)構(gòu),創(chuàng)建成功后還會(huì)自主檢查各項(xiàng)功能是否可以運(yùn)行。
在技術(shù)報(bào)告中,研究人員提到針對(duì)GUI智能體在數(shù)據(jù)可擴(kuò)展性、多輪強(qiáng)化學(xué)習(xí)(RL)、僅GUI操作的局限性以及環(huán)境穩(wěn)定性方面的挑戰(zhàn),其提出了系統(tǒng)化訓(xùn)練方法:包含用于可擴(kuò)展數(shù)據(jù)生成的數(shù)據(jù)飛輪、穩(wěn)定的多輪RL框架、集成文件系統(tǒng)和終端的混合GUI環(huán)境、用于大規(guī)模部署的統(tǒng)一沙盒平臺(tái)。
論文地址:https://arxiv.org/abs/2509.02544
Demo地址:https://seed-tars.com/showcase/ui-tars-2/
一、拆解需求、使用搜索、創(chuàng)建網(wǎng)頁(yè),都能一氣呵成
字節(jié)放出的幾個(gè)Demo中,包含了UI-TARS-2創(chuàng)建重量單位轉(zhuǎn)換查詢工具、創(chuàng)建字符計(jì)數(shù)工具、為音樂老師創(chuàng)建演示網(wǎng)頁(yè)、比較數(shù)字大小等任務(wù)。
首先是實(shí)現(xiàn)重量單位轉(zhuǎn)換查詢。
提示詞:編寫一個(gè)能夠?qū)⒅亓繌囊环N單位轉(zhuǎn)換為另一種單位的函數(shù)。若原始單位是千克、目標(biāo)單位是克,且待轉(zhuǎn)換的數(shù)值為瑪?shù)贍柕隆と嵋∕athilde Seigner)獲得凱撒獎(jiǎng)(César Award)提名的次數(shù)加1,那么最終結(jié)果會(huì)是多少?
同樣,UI-TARS-2會(huì)先分解需求,找到瑪?shù)贍柕隆と嵋@得凱撒獎(jiǎng)提名的次數(shù),其通過多渠道驗(yàn)證確認(rèn)有3次,然后開始創(chuàng)建包含用于轉(zhuǎn)換重量單位函數(shù)的Python文件。
其次是Hugging Face數(shù)據(jù)集字符字?jǐn)?shù)。
提示詞:請(qǐng)?jiān)贖ugging Face上搜索熱門數(shù)據(jù)集,下載排名第一的數(shù)據(jù)集,并計(jì)算整個(gè)數(shù)據(jù)集中的字符總數(shù)。
拆解完任務(wù)后,UI-TARS-2會(huì)打開谷歌瀏覽器,然后搜索查找熱門數(shù)據(jù)集。
第三個(gè)提示詞是“我是一名高中音樂理論教師,正在準(zhǔn)備一門關(guān)于基礎(chǔ)音樂理論的課程,用于解釋音樂名稱、音階名稱、大調(diào)音階、八度分布和物理頻率等知識(shí)。請(qǐng)幫助我收集足夠的信息,設(shè)計(jì)出充實(shí)且權(quán)威的課程內(nèi)容,并配上演示動(dòng)畫,最后將它們輸出為網(wǎng)頁(yè)”。
UI-TARS-2會(huì)使用搜索工具查找這些需要解釋的知識(shí),然后為網(wǎng)頁(yè)規(guī)劃目錄、創(chuàng)建。
第四個(gè)是使用Jupyter比較數(shù)字。
提示詞:使用Jupyter計(jì)算9.11和9.9哪個(gè)更大?
拆解任務(wù)后,UI-TARS-2會(huì)創(chuàng)建用于比較兩個(gè)數(shù)字的Python腳本,然后使用Jupyter來運(yùn)行它,最后給出了9.9比9.11大的正確答案。
二、玩游戲水平達(dá)到人類60%,多項(xiàng)測(cè)試超OpenAI、Claude
實(shí)證評(píng)估表明,UI-TARS-2相較于其上一代智能體UI-TARS-1.5,在基于GUI的交互和游戲環(huán)境中均表現(xiàn)出色。
在GUI基準(zhǔn)測(cè)試中,該模型在真實(shí)網(wǎng)站上進(jìn)行通用Web智能體的在線推理與評(píng)估測(cè)試集Online-Mind2Web上達(dá)到88.2分,在真實(shí)計(jì)算機(jī)環(huán)境中對(duì)多模態(tài)智能體進(jìn)行開放式任務(wù)評(píng)測(cè)的可擴(kuò)展基準(zhǔn)平臺(tái)OSWorld上達(dá)到47.5分,在面向Windows的可復(fù)現(xiàn)、可擴(kuò)展的多模態(tài)計(jì)算機(jī)智能體基準(zhǔn)平臺(tái)WindowsAgentArena上達(dá)到50.6分,在面向移動(dòng)設(shè)備的可擴(kuò)展、可復(fù)現(xiàn)的自主智能體評(píng)測(cè)基準(zhǔn)AndroidWorld上達(dá)到73.3分,并在多項(xiàng)測(cè)試中超越了Claude和OpenAI Agent等。
在游戲環(huán)境中,UI-TARS-2在15款游戲套件中的平均歸一化得分為59.8分,約相當(dāng)于人類水平的60%,分別比OpenAI CUA和Claude Computer Use等智能體高出2.4倍和2.8倍。
在開源游戲基準(zhǔn)LMGame-Bench上,UI-TARS-2展現(xiàn)了其在長(zhǎng)時(shí)程游戲推理方面的魯棒性。
此外,研究人員通過GUI-SDK擴(kuò)展了智能體功能,使其能夠與終端和外部工具等系統(tǒng)級(jí)資源集成。
通過這一擴(kuò)展,UI-TARS-2在長(zhǎng)時(shí)程信息搜索基準(zhǔn)測(cè)試中表現(xiàn)出色,并在軟件工程任務(wù)Terminal Bench上達(dá)到45.3分。
這些結(jié)果表明,研究人員為GUI Agent開發(fā)的訓(xùn)練方法,包括多輪強(qiáng)化學(xué)習(xí)優(yōu)化和可擴(kuò)展的rollout基礎(chǔ)設(shè)施,能夠有效地遷移到其他交互領(lǐng)域,從而擴(kuò)展Agent的適用性。
三、針對(duì)GUI智能體痛點(diǎn),提出四大支柱系統(tǒng)方法論
GUI智能體的傳統(tǒng)方法通常采用模塊化管道,分別設(shè)計(jì)感知、規(guī)劃、記憶和行動(dòng)等組件,但其嚴(yán)重依賴專家啟發(fā)式方法和任務(wù)特定規(guī)則,導(dǎo)致系統(tǒng)脆弱且難以擴(kuò)展。
在此基礎(chǔ)上,字節(jié)Seed團(tuán)隊(duì)提出了一種基于四大支柱的系統(tǒng)方法論:
首先,為緩解數(shù)據(jù)稀缺問題,研究人員設(shè)計(jì)了一個(gè)可擴(kuò)展的數(shù)據(jù)飛輪,通過持續(xù)預(yù)訓(xùn)練、監(jiān)督微調(diào)、拒絕采樣和多輪強(qiáng)化學(xué)習(xí)協(xié)同進(jìn)化模型及其訓(xùn)練語(yǔ)料庫(kù)。該框架提供持續(xù)流入的多樣化、高質(zhì)量軌跡,并確保模型和數(shù)據(jù)在自我強(qiáng)化的循環(huán)中迭代改進(jìn)。
其次,為克服可擴(kuò)展多輪強(qiáng)化學(xué)習(xí)的困難,研究人員設(shè)計(jì)了一個(gè)訓(xùn)練框架,在長(zhǎng)時(shí)程環(huán)境下穩(wěn)定優(yōu)化,這包括具有狀態(tài)環(huán)境的狀態(tài)異步展開以保留上下文、流式更新以避免長(zhǎng)尾軌跡造成的瓶頸,以及增強(qiáng)型近端策略優(yōu)化,結(jié)合獎(jiǎng)勵(lì)塑形、自適應(yīng)優(yōu)勢(shì)估計(jì)和值預(yù)訓(xùn)練。
第三,為了超越純GUI交互的限制,研究人員構(gòu)建了一個(gè)以GUI為中心的混合環(huán)境,通過增加屏幕操作與文件系統(tǒng)、終端和其他外部工具等互補(bǔ)資源的訪問,使智能體能夠解決更廣泛的實(shí)際工作流程。
第四,為了支持大規(guī)模訓(xùn)練和評(píng)估,研究人員建立了一個(gè)統(tǒng)一的沙盒平臺(tái),從用于GUI交互的云虛擬機(jī)到基于瀏覽器的游戲沙盒能夠協(xié)調(diào)異構(gòu)環(huán)境,使其在一致的API下運(yùn)行。該平臺(tái)經(jīng)過設(shè)計(jì)以確??芍貜?fù)性、穩(wěn)定性和高吞吐量,使其能夠可靠地運(yùn)行數(shù)百萬次交互式部署。
結(jié)語(yǔ):UI-TARS-2實(shí)現(xiàn)多場(chǎng)景均衡性能
UI-TARS-2通過結(jié)合多輪強(qiáng)化學(xué)習(xí)、監(jiān)督微調(diào)、拒絕采樣和持續(xù)預(yù)訓(xùn)練的迭代流程進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)在異構(gòu)領(lǐng)域持續(xù)改進(jìn)。研究人員在論文中提到,他們的實(shí)驗(yàn)表明,雖然領(lǐng)域特定的變體可以在單個(gè)基準(zhǔn)測(cè)試中取得峰值分?jǐn)?shù),但UI-TARS-2在單一統(tǒng)一系統(tǒng)中實(shí)現(xiàn)了跨GUI、瀏覽器、移動(dòng)和游戲任務(wù)的平衡且具有競(jìng)爭(zhēng)力的性能。
除了基準(zhǔn)測(cè)試結(jié)果外,他們還針對(duì)訓(xùn)練動(dòng)態(tài)和交互擴(kuò)展進(jìn)行了分析,為多輪智能體強(qiáng)化學(xué)習(xí)提供思路,證明模型在多樣化環(huán)境中進(jìn)行訓(xùn)練能夠促進(jìn)參數(shù)共享和能力遷移,從而產(chǎn)生融合圖形交互與更復(fù)雜推理和決策能力的混合技能。他們認(rèn)為,UI-TARS-2代表了對(duì)更強(qiáng)大、可靠和多功能計(jì)算機(jī)使用Agent的邁進(jìn)。