銀河通用張直政最新發(fā)聲:仿真合成數(shù)據(jù)將具身智能訓練效率提升千倍
在以“重塑創(chuàng)新增長”為主題的“2025 Inclusion·外灘大會”上,共有40余家具身智能企業(yè)亮相。如何協(xié)同產業(yè)鏈上下游,將技術突破轉化為商業(yè)回報,成為不少與會行業(yè)人員關注的問題。
“我們的愿景是把具身智能大模型所帶來的智能和高性能人形硬件本體結合起來,形成一個完整的產品力服務,讓它真正能夠實現(xiàn)跨行業(yè)應用、走進千家萬戶、服務千行百業(yè)?!?月12日,在“具身智能:從泛化到行動,重塑產業(yè)未來”的分論壇上,北京銀河通用機器人有限公司(以下簡稱“銀河通用”)聯(lián)合創(chuàng)始人、大模型負責人張直政分享了團隊在具身智能訓練方面正在探索的途徑和方向。
一個聰明的、會干活的機器人是通過場景訓練出來的。在人形機器人迎來爆發(fā)的關鍵階段,不少企業(yè)要面臨“具身智能訓練的數(shù)據(jù)從哪里來”的問題。
“具身智能:從泛化到行動,重塑產業(yè)未來”分論壇
張直政在現(xiàn)場演講中介紹,目前行業(yè)內已經(jīng)有通過真機遙操作采集數(shù)據(jù)。他以特斯拉舉例介紹稱,在訓練電池分揀任務上,需要數(shù)十萬條數(shù)據(jù),40個人要花費一個月時間進行采集?!叭绻磭鴥鹊娜肆Τ杀緛硭悖覀兛赡芤〝?shù)百萬人民幣?!?/p>
在張直政看來,如此耗時耗力的數(shù)據(jù)采集方式是否會是通往具身智能的最終解決路徑值得思考,尤其是當具身智能面臨跨任務泛化時,可能需要上萬億條數(shù)據(jù)。
從2023年創(chuàng)立到現(xiàn)在,銀河通用機器人堅持探索的技術路線則是用仿真合成數(shù)據(jù)。據(jù)了解,仿真合成數(shù)據(jù)具有可控性、效率高,但在文理和語義的學習上比不上真實場景的數(shù)據(jù)。
張直政表示,目前這個問題已經(jīng)被圖文大模型、數(shù)字大模型解決了,現(xiàn)在可以用更多的互聯(lián)網(wǎng)數(shù)據(jù)讓機器人學語義。銀河通用目前在探索的便是,機器人學習動作用仿真數(shù)據(jù),學習語義可以部分結合真實數(shù)據(jù)。
“從前端的各種形態(tài)、各種功能數(shù)據(jù)資產的生成,到動作軌跡的生成,再到最終的渲染,我們實現(xiàn)了一條完整的高效的仿真合成數(shù)據(jù)的管線。有了這樣的管線,我們就可以更快速、更低成本生產更高質量的動作數(shù)據(jù)來訓練我們的具身模型?!睆堉闭v述稱。
據(jù)他介紹,銀河通用已經(jīng)生產出世界上目前規(guī)模最大的數(shù)據(jù)集——10億級別的仿真合成數(shù)據(jù),目前內部已經(jīng)進一步將數(shù)量級擴大至百億級別、千億級別。
“有了大規(guī)模仿真合成數(shù)據(jù),我們就能夠做到通過預訓練讓模型在視覺、語言、動作層面實現(xiàn)不同維度的泛化。”張直政提到,這將直接實現(xiàn)效率上的提高,“同樣是做電池分揀任務,一個遙操員可能只要花半天不到的時間就能夠讓具身智能完成技能的學習?!?/p>
“通過少量真實數(shù)據(jù)后訓練,可以1000倍提升真實數(shù)據(jù)效率?!睆堉闭硎荆磥磉€可以打開想象,當學習更多技能時,效率提升可能是上萬倍甚至是數(shù)十萬倍。