諾獎(jiǎng)得主、谷歌AI掌門人潑冷水:所謂“博士級(jí)智能”純屬無(wú)稽之談

智東西編譯 陳駿達(dá)編輯 李水青
智東西9月15日?qǐng)?bào)道,昨日,谷歌DeepMind的AI應(yīng)用Gemini憑借其圖像編輯模型“Nano Banana”的病毒式傳播,在美區(qū)蘋果App Store免費(fèi)應(yīng)用榜中取代ChatGPT,強(qiáng)勢(shì)登頂,成為該區(qū)域最受歡迎的應(yīng)用之一。
近日,這場(chǎng)現(xiàn)象級(jí)的爆火背后的締造者——2024年諾貝爾化學(xué)獎(jiǎng)得主、谷歌DeepMind創(chuàng)始人兼CEO Demis Hassabis,在All-in峰會(huì)上進(jìn)行了一場(chǎng)深度分享,系統(tǒng)闡釋了從爆款產(chǎn)品到AGI未來(lái)的宏大議題,內(nèi)容橫跨世界模型、機(jī)器人、AGI定義、科學(xué)智能、創(chuàng)作的未來(lái)和能源等多個(gè)前沿維度。
Hassabis將谷歌DeepMind定位為驅(qū)動(dòng)谷歌的“AI引擎室”,Gemini、Genie、Veo等模型,都在深度融入谷歌的現(xiàn)有產(chǎn)品。其中,Genie 3世界模型正通過“逆向工程”學(xué)習(xí)物理規(guī)律,未來(lái)可能會(huì)推動(dòng)機(jī)器人技術(shù)革命。谷歌還在Gemini的基礎(chǔ)上打造機(jī)器人模型,有望形成“機(jī)器人安卓系統(tǒng)”這樣的通用平臺(tái)。
對(duì)于業(yè)界熱議的AGI前景,Hassabis給出了冷靜判斷,直言當(dāng)前部分競(jìng)爭(zhēng)對(duì)手所謂的“博士級(jí)智能”是“無(wú)稽之談”(nonsense)。雖然并未指名道姓,但相關(guān)表述很有可能指的是OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman對(duì)GPT-5能力達(dá)到“博士級(jí)智能”的爭(zhēng)議表述。
▲Demis Hassabis(右)接受采訪(圖源:Youtube)
Hassabis認(rèn)為,目前AI系統(tǒng)最大的缺陷,就是無(wú)法提出真正有創(chuàng)造性的觀點(diǎn)。要實(shí)現(xiàn)AGI系統(tǒng),我們?nèi)孕璧却?-2個(gè)關(guān)鍵技術(shù)突破的出現(xiàn)。他還透露,其領(lǐng)導(dǎo)的AI藥物發(fā)現(xiàn)公司Isomorphic進(jìn)展迅速,預(yù)計(jì)明年進(jìn)入臨床前研究,旨在將新藥研發(fā)周期從數(shù)年縮短至數(shù)周。
自上世紀(jì)90年代起,Hassabis就一直在從事AI相關(guān)研究,尤其對(duì)科學(xué)智能(AI for Science)有深厚的興趣。他認(rèn)為,AGI有望成為科學(xué)探索的終極工具,其實(shí)現(xiàn)意味著科學(xué)黃金時(shí)代的到來(lái),有望開啟又一場(chǎng)文藝復(fù)興。
以下是Hassabis在All-in峰會(huì)上采訪的實(shí)錄:
一、諾獎(jiǎng)公布前10分鐘才知曉,DeepMind已成谷歌“引擎室”
主持人:首先恭喜你獲得諾貝爾獎(jiǎng)。關(guān)于AlphaFold這一重大突破,大家都很想聽聽你得知獲獎(jiǎng)時(shí)的情景。當(dāng)時(shí)你在哪里?是怎么得知的?
Demis Hassabis:那是一個(gè)非常超現(xiàn)實(shí)的時(shí)刻。整個(gè)過程都很不真實(shí)。他們通知的方式是,在消息對(duì)外公布前大約十分鐘打電話給你。當(dāng)你接到來(lái)自瑞典的電話時(shí),整個(gè)人都懵了。這是每個(gè)科學(xué)家夢(mèng)寐以求的電話。
之后就是在瑞典與王室共度的一整周頒獎(jiǎng)典禮,非常神奇。最令人震撼的部分是,他們會(huì)從保險(xiǎn)庫(kù)里拿出諾貝爾獎(jiǎng)簽名簿,你可以在那上面簽下自己的名字,和所有偉大人物并列。
翻閱那些頁(yè)面時(shí),你會(huì)看到費(fèi)曼、居里夫人、愛因斯坦、玻爾的名字,然后你也把自己的名字寫進(jìn)那本書里。這真是難以置信的時(shí)刻。
主持人:你之前有沒有想過自己可能會(huì)獲獎(jiǎng)?
Demis Hassabis:外界會(huì)有一些傳聞,但令人驚訝的是,即便在當(dāng)今時(shí)代,諾獎(jiǎng)評(píng)選方依然能把消息保密得如此嚴(yán)密。這個(gè)獎(jiǎng)對(duì)瑞典來(lái)說就像是國(guó)寶。
會(huì)有人說AlphaFold這種成果足以配得上諾獎(jiǎng)的認(rèn)可。但諾貝爾獎(jiǎng)不僅看重科學(xué)突破,也重視對(duì)現(xiàn)實(shí)世界的影響,而這種影響往往需要二三十年才能完全顯現(xiàn)。即使聽到風(fēng)聲,也無(wú)法預(yù)料會(huì)不會(huì)真的發(fā)生。對(duì)我來(lái)說是一個(gè)驚喜。
主持人:那我們來(lái)聊聊DeepMind。在Alphabet內(nèi)部,DeepMind是什么定位?具體負(fù)責(zé)什么?
Demis Hassabis:我們現(xiàn)在稱之為谷歌DeepMind。幾年前我們把谷歌和Alphabet內(nèi)部所有的AI研究合并到一起,包括谷歌DeepMind。各團(tuán)隊(duì)的優(yōu)勢(shì)匯集成了一個(gè)部門。
如今谷歌DeepMind是整個(gè)谷歌和Alphabet的“引擎室”。DeepMind打造的主力模型Gemini,以及其他許多模型,包括視頻模型、交互式世界模型等,都已經(jīng)融入到谷歌各個(gè)產(chǎn)品中。
幾乎每一項(xiàng)產(chǎn)品、每一個(gè)服務(wù)領(lǐng)域都有我們的AI模型。如今已有數(shù)十億人通過AI概覽、AI模式、Gemini應(yīng)用等使用Gemini模型。
而這僅僅是開始,我們還把它整合進(jìn)Workspace、Gmail等等。這對(duì)我們來(lái)說是絕佳機(jī)會(huì)——既能做前沿研究,又能立刻將成果推送給數(shù)十億用戶。
主持人:你們的團(tuán)隊(duì)規(guī)模有多大?人員構(gòu)成是怎樣的?
Demis Hassabis:大約有5000人,其中80%以上是工程師和博士研究員。
二、Genie靠逆向工程學(xué)會(huì)物理規(guī)律,最終可推動(dòng)機(jī)器人技術(shù)發(fā)展
主持人:模型在不斷演進(jìn),新模型層出不窮。前幾天你們發(fā)布了Genie 3世界模型。能給大家介紹一下嗎?
Demis Hassabis:這些畫面都是可互動(dòng)的世界,根據(jù)文本提示實(shí)時(shí)生成的,用戶可以用方向鍵和空格鍵操控3D環(huán)境。
畫面中,每一個(gè)像素都是即時(shí)生成的,直到用戶進(jìn)入那個(gè)區(qū)域,它才存在。整個(gè)過程充滿細(xì)節(jié)。
比如這個(gè)例子里,有人正在給房間刷漆、在墻上畫東西。玩家轉(zhuǎn)頭看向右邊時(shí),那部分世界才被生成。然后再回頭時(shí),剛才留下的筆跡還在。這一切都是實(shí)時(shí)生成的。
你還可以輸入“穿著雞仔戲服的人”或“水上摩托”之類的提示,它會(huì)立刻把這些元素加入場(chǎng)景中。真的非常震撼。
主持人:我覺得最難理解的地方是,我們都玩過帶有沉浸式3D元素的電子游戲,但那些世界里的物體都是預(yù)先建好的,需要Unity或Unreal這樣的渲染引擎。而Genie是在即時(shí)生成2D圖像。
Demis Hassabis:Genie實(shí)際上是在對(duì)物理學(xué)進(jìn)行“逆向工程”。它看過數(shù)百萬(wàn)條YouTube視頻和其他現(xiàn)實(shí)世界素材,僅憑這些就推演出了很多世界運(yùn)作的規(guī)律。
當(dāng)然,它還不完美,但已經(jīng)能生成一致的一兩分鐘交互體驗(yàn),而且不限于人類角色,甚至可以操控海灘上的狗或水母。
主持人:3D渲染引擎的工作方式是這樣的:程序員需要把所有物理規(guī)律都編寫進(jìn)去,比如光線的反射方式。程序員需要?jiǎng)?chuàng)建一個(gè)三維物體,然后讓光線在上面反射,這樣軟件才能渲染出來(lái)。但Genie完全不同,它是通過視頻訓(xùn)練出來(lái)的,卻自己推理出了這一切。
Demis Hassabis:沒錯(cuò),它既用真實(shí)視頻,也用部分游戲引擎合成數(shù)據(jù)來(lái)訓(xùn)練。這一項(xiàng)目與我的個(gè)人興趣很有淵源,在90年代我職業(yè)生涯早期時(shí),我便曾經(jīng)開發(fā)過電子游戲和游戲內(nèi)的AI系統(tǒng),還自己做過圖形引擎。
我知道當(dāng)年要靠手工編寫多邊形、物理引擎有多么困難。而現(xiàn)在這個(gè)模型可以毫不費(fèi)力地做到,甚至能實(shí)時(shí)渲染水面反射、材質(zhì)流動(dòng)、物體互動(dòng)等復(fù)雜效果。
主持人:這些畫面的復(fù)雜性是難以想象的。這會(huì)把我們帶向何方?比如推演到Genie 5?
Demis Hassabis:雖然Gemini語(yǔ)言模型的能力在不斷進(jìn)步,但它從一開始就被設(shè)計(jì)為多模態(tài),可以處理圖像、音頻、視頻等各種輸入,并生成各種輸出。
我們之所以要構(gòu)建這樣的模型,是因?yàn)槲覀冋J(rèn)為真正的AGI必須理解我們周圍的物理世界,而不僅僅是語(yǔ)言或數(shù)學(xué)這些抽象領(lǐng)域。
這是機(jī)器人技術(shù)能夠運(yùn)作的關(guān)鍵,目前這塊能力還是缺失的。同時(shí),AI眼鏡如果想要在日常生活中發(fā)揮作用,也需要理解所處的物理環(huán)境和周圍世界的工作原理。
像Genie、Veo這些項(xiàng)目,實(shí)際上都是在訓(xùn)練AI去掌握世界的動(dòng)態(tài)和物理規(guī)律。如果模型能生成一個(gè)交互式的世界,那就說明它在某種程度上理解了世界的運(yùn)行邏輯,而這最終可以推動(dòng)機(jī)器人技術(shù)的發(fā)展。
三、谷歌想打造“機(jī)器人領(lǐng)域的安卓系統(tǒng)”
主持人:視覺、語(yǔ)言與行動(dòng)模型(VLA模型)的最新進(jìn)展如何?我們能否構(gòu)建一個(gè)通用系統(tǒng):機(jī)器人通過攝像頭觀察世界,然后我可以用文本或語(yǔ)音告訴它“請(qǐng)幫我完成某件事”,而它知道如何在物理世界中執(zhí)行相應(yīng)的行動(dòng)?
Demis Hassabis:是的,正是如此。例如,你可以嘗試我們推出的Gemini Live版本:只需舉起手機(jī),它就能觀察你周圍的世界。我建議大家親自體驗(yàn)一下,它已經(jīng)能夠理解物理世界中的許多內(nèi)容,這一點(diǎn)非常令人驚嘆。
下一步,我們可以設(shè)想將其集成到更便攜的設(shè)備中,比如眼鏡。那樣它就會(huì)成為一個(gè)日常助手——當(dāng)你在街上行走時(shí),它可以為你推薦信息,或者我們可以將其嵌入谷歌地圖等功能中。
在機(jī)器人領(lǐng)域,我們開發(fā)了Gemini機(jī)器人模型,它們是基于Gemini模型、并利用額外機(jī)器人數(shù)據(jù)進(jìn)行微調(diào)的版本。
今年夏天我們發(fā)布了一些演示。我們布置了桌面環(huán)境,兩個(gè)機(jī)械臂在桌上與物體互動(dòng),而你可以直接用語(yǔ)言與機(jī)器人交流。比如你可以說“把黃色的物體放進(jìn)紅色的桶里”,它就能將語(yǔ)言指令轉(zhuǎn)化為電機(jī)動(dòng)作。
這體現(xiàn)了多模態(tài)模型的力量,而不僅僅是傳統(tǒng)的機(jī)器人專用控制模型——它能夠?qū)?duì)現(xiàn)實(shí)世界的理解融入與人的交互中。最終,這種模型能力將同時(shí)服務(wù)于用戶交互體驗(yàn),以及機(jī)器人與世界的交互。
主持人:我曾經(jīng)問過谷歌CEO Sundar Pichai:我們是否最終能構(gòu)建出一種機(jī)器人的通用操作系統(tǒng),類似于Unix或安卓。
如果它能足夠通用,可以在多種設(shè)備上運(yùn)行,那么機(jī)器人設(shè)備、公司與產(chǎn)品將迎來(lái)爆發(fā)式增長(zhǎng),因?yàn)榇嬖谝环N可廣泛適配的軟件基礎(chǔ)。
Demis Hassabis:這正是我們正在推進(jìn)的策略之一,可以稱之為“機(jī)器人領(lǐng)域的安卓戰(zhàn)略”。但另一方面,將我們最先進(jìn)的模型與特定類型的機(jī)器人設(shè)計(jì)進(jìn)行垂直整合,實(shí)現(xiàn)端到端學(xué)習(xí),也非常有趣。這兩種策略我們都在積極探索。
四、人形與專用機(jī)器人將共存,算法仍需進(jìn)一步發(fā)展
主持人:人形機(jī)器人是否是一種合理的外形呢?有人認(rèn)為它適合人類,因?yàn)槲覀冏约壕褪侨诵?,但解決問題可能需要不同形態(tài)的機(jī)器人,比如專門疊衣服、洗碗或打掃的形態(tài)。
Demis Hassabis:我認(rèn)為兩者都會(huì)存在市場(chǎng)。實(shí)際上,五到十年前我曾認(rèn)為我們會(huì)為特定任務(wù)開發(fā)特定形態(tài)的機(jī)器人。在工業(yè)領(lǐng)域確實(shí)如此,無(wú)論是實(shí)驗(yàn)室或生產(chǎn)線,你會(huì)根據(jù)任務(wù)優(yōu)化機(jī)器人的形態(tài)。
然而,對(duì)于通用或個(gè)人用途的機(jī)器人,尤其是需要與人類環(huán)境交互的場(chǎng)景,人形機(jī)器人可能非常關(guān)鍵。
畢竟,我們的物理世界是為人類設(shè)計(jì)的:臺(tái)階、門道……一切設(shè)施都符合人的形態(tài)。與其改變整個(gè)世界,不如讓機(jī)器人適應(yīng)我們已有的環(huán)境。
人形機(jī)器人在這類任務(wù)中可能非常重要。但我相信,專用形態(tài)的機(jī)器人同樣會(huì)有其市場(chǎng)空間。
主持人:你對(duì)未來(lái)五到七年的機(jī)器人數(shù)量有什么看法?比如,你是否認(rèn)為會(huì)有數(shù)百萬(wàn)甚至數(shù)千萬(wàn)的機(jī)器人?你有沒有一個(gè)愿景?
Demis Hassabis:是的,我有。我在這方面花了很多時(shí)間思考。我覺得我們?nèi)匀惶幱跈C(jī)器人技術(shù)的早期階段。在接下來(lái)的幾年里,機(jī)器人技術(shù)或許將會(huì)有真正的“Wow”的時(shí)刻。
但我認(rèn)為算法還需要進(jìn)一步發(fā)展。機(jī)器人模型的底座,也就是通用模型,還需要變得更好、更可靠,并且更好地理解周圍的環(huán)境。這將在接下來(lái)的幾年內(nèi)實(shí)現(xiàn)。
在硬件方面,我認(rèn)為最終會(huì)有成百上千萬(wàn)機(jī)器人出現(xiàn),關(guān)鍵在于硬件合適能發(fā)展到可以進(jìn)行大規(guī)模生產(chǎn)的程度。當(dāng)你開始建造大批量生產(chǎn)某款機(jī)器人的工廠時(shí),就很難快速迭代機(jī)器人設(shè)計(jì)。如果你過早地開始大規(guī)模生產(chǎn),那么6個(gè)月后可能會(huì)出現(xiàn)新一代機(jī)器人,它更可靠、更靈活,這就比較棘手了。
主持人:用計(jì)算機(jī)類比的話,我們處于70年代的PC DOS時(shí)代。
Demis Hassabis:是的,可能就是這樣。我認(rèn)為也許這就是我們所處的位置,但當(dāng)時(shí)耗費(fèi)10年完成的進(jìn)展,在如今可能1年內(nèi)就會(huì)發(fā)生。
五、AGI將成為科學(xué)探索終極工具,目前AI系統(tǒng)仍缺乏創(chuàng)造力
主持人:讓我們來(lái)談?wù)勂渌麘?yīng)用,特別是在科學(xué)領(lǐng)域。我始終認(rèn)為,我們能夠用AI解決的最偉大的問題,是那些人類目前憑借現(xiàn)有技術(shù)和能力以及我們的大腦等還無(wú)法解決的難題。
你對(duì)哪些科學(xué)領(lǐng)域的突破感到最興奮,以及我們將使用什么樣的模型來(lái)實(shí)現(xiàn)這些突破?
Demis Hassabis:將AI用于加速科學(xué)發(fā)現(xiàn),并為人類的醫(yī)療健康事業(yè)做貢獻(xiàn),是我投身AI研究的初衷,也是我眼中AI最重要的應(yīng)用領(lǐng)域。
如果我們以正確的方式構(gòu)建AGI,它將成為科學(xué)探索的終極工具。DeepMind在這方面已取得多項(xiàng)重要成果,最著名的例子是AlphaFold。
實(shí)際上,我們已將AI系統(tǒng)應(yīng)用于多個(gè)科學(xué)領(lǐng)域,包括材料設(shè)計(jì)、等離子體與聚變反應(yīng)堆控制、天氣預(yù)測(cè),甚至解決數(shù)學(xué)奧林匹克競(jìng)賽問題。同樣的系統(tǒng),經(jīng)過微調(diào)就能解決很復(fù)雜的問題。
但我們目前仍然只是觸及表面,AI系統(tǒng)尚未展現(xiàn)出真正的創(chuàng)造力,還無(wú)法像人類科學(xué)家那樣提出新的猜想或理論。我認(rèn)為,這將是衡量AGI實(shí)現(xiàn)與否的關(guān)鍵標(biāo)準(zhǔn)之一。
主持人:你認(rèn)為什么是創(chuàng)造力?
Demis Hassabis:我認(rèn)為創(chuàng)造力是那種我們常常在歷史上最偉大的科學(xué)家和藝術(shù)家身上看到的直覺性飛躍,也許是通過類比推理實(shí)現(xiàn)的。心理學(xué)和神經(jīng)科學(xué)中有許多相關(guān)理論。
我認(rèn)為一個(gè)不錯(cuò)的測(cè)試方法是,給現(xiàn)代AI系統(tǒng)設(shè)定一個(gè)知識(shí)截止時(shí)間(比如1901年),然后觀察它是否能像愛因斯坦那樣,在1905年提出狹義相對(duì)論。如果能夠做到,那可能意味著我們真正接近AGI。
另一個(gè)例子是我們的AlphaGo程序。它在十年前擊敗了世界圍棋冠軍,甚至還發(fā)明了前所未有的新策略,比如第二局中著名的第37手。
但目前的AI系統(tǒng)還無(wú)法創(chuàng)造出像圍棋這樣兼具優(yōu)雅性、滿足感與審美價(jià)值的游戲。我認(rèn)為,這正是當(dāng)前通用系統(tǒng)或AGI系統(tǒng)所欠缺的。
六、“博士級(jí)智能”遠(yuǎn)未實(shí)現(xiàn),仍有部分關(guān)鍵能力缺失
主持人:你能分享一下具體哪些部分還有短板嗎?OpenAI的Sam Altman、Anthropic的Dario Amodei近期提出“AGI即將在未來(lái)幾年實(shí)現(xiàn)”的觀點(diǎn),你認(rèn)同嗎?
Demis Hassabis:這個(gè)問題的核心在于,我們是否能讓AI系統(tǒng)模仿那些頂尖人類科學(xué)家所展現(xiàn)出的那種直覺式飛躍,而不是僅僅做出漸進(jìn)式的進(jìn)展。
我常說,區(qū)分偉大科學(xué)家與優(yōu)秀科學(xué)家的關(guān)鍵在于,兩者在技術(shù)上都非常出色,但偉大的科學(xué)家更具創(chuàng)造力。他們可能會(huì)從其他學(xué)科領(lǐng)域中發(fā)現(xiàn)某種模式,并將其類比或匹配到正在研究的問題上。
我認(rèn)為未來(lái)的AI終將具備這種能力,但目前它還缺乏實(shí)現(xiàn)這種突破所需的推理能力和思維方式。
此外,現(xiàn)有AI系統(tǒng)也缺乏能力的一致性。有時(shí)我們的競(jìng)爭(zhēng)對(duì)手聲稱AI系統(tǒng)已達(dá)到“博士級(jí)智能”,我認(rèn)為這就是無(wú)稽之談(nonsense)。
它們不是博士級(jí)智能,可能在某些方面具備博士級(jí)能力,但并非在所有領(lǐng)域都達(dá)到這一水平——而真正的通用智能應(yīng)能做到這一點(diǎn)。
正如我們所體驗(yàn)到的,如果你以某種方式提問,當(dāng)前的聊天機(jī)器人甚至?xí)诟咧袛?shù)學(xué)或簡(jiǎn)單計(jì)數(shù)問題上出錯(cuò)。真正的AGI系統(tǒng)不應(yīng)出現(xiàn)這類錯(cuò)誤。
我認(rèn)為,要實(shí)現(xiàn)能夠勝任這些任務(wù)的AGI系統(tǒng),可能還需要五到十年的時(shí)間。另一個(gè)尚未實(shí)現(xiàn)的核心能力是持續(xù)學(xué)習(xí),即系統(tǒng)能夠在線接受新知識(shí)或調(diào)整其行為。
目前這些能力仍然缺失,也許通過擴(kuò)大模型規(guī)??梢詫?shí)現(xiàn)一部分,但我認(rèn)為可能還需要一兩個(gè)突破性的進(jìn)展,這些突破有望在未來(lái)五到十年內(nèi)出現(xiàn)。
七、模型性能提升未停滯,Nano Banana或?qū)崿F(xiàn)創(chuàng)作普惠
主持人:一些報(bào)告和評(píng)分似乎反映出兩種趨勢(shì):第一,大語(yǔ)言模型的性能逐漸趨于收斂;第二,性能提升的速度可能正在放緩甚至趨于平穩(wěn)。這兩種說法是否基本準(zhǔn)確?
Demis Hassabis:實(shí)際上,我們內(nèi)部并未觀察到這種現(xiàn)象。我們依然看到顯著的進(jìn)步速度,并且我們的視角更為廣闊。例如,我們的Genie模型、Veo模型,以及最近的Nano Banana,都展現(xiàn)出令人矚目的進(jìn)展。
我認(rèn)為,未來(lái)創(chuàng)意工具的發(fā)展方向是用戶能夠與它們自然交互,甚至通過對(duì)話進(jìn)行操作,而系統(tǒng)能夠以高度一致的方式響應(yīng)用戶需求,就像Nano Banana一樣。
它不僅在圖像生成領(lǐng)域處于領(lǐng)先地位,更突出的是其一致性——能夠在遵循指令的同時(shí)保持其他元素不變,使用戶能夠通過迭代獲得理想的輸出。這種能力預(yù)示著創(chuàng)意工具的未來(lái),人們很喜歡這一模型,也喜歡用它來(lái)創(chuàng)作。
主持人:我記得小時(shí)候?yàn)榱藢W(xué)習(xí)如何在Photoshop中去除圖像中的某些部分,不得不購(gòu)買書籍,學(xué)習(xí)復(fù)雜的操作如填充、羽化邊緣等。而現(xiàn)在,任何人都可以通過Nano Banana輕松實(shí)現(xiàn)這些效果,只需向軟件描述需求,它就能自動(dòng)完成。
Demis Hassabis:這一方面,這些工具正變得普惠化,普通人無(wú)需學(xué)習(xí)復(fù)雜的用戶界面即可進(jìn)行創(chuàng)作;另一方面,我們也在與頂尖創(chuàng)意人士合作,打磨工具的設(shè)計(jì)。
例如導(dǎo)演達(dá)倫·阿倫諾夫斯基及其團(tuán)隊(duì),他們使用Veo等工具制作電影,并幫助我們優(yōu)化工具功能。
通過與這些專業(yè)人士的合作,我們發(fā)現(xiàn)這些工具不僅適用于普通用戶,還能以十倍、百倍的幅度,提升頂級(jí)創(chuàng)作者的生產(chǎn)力。
他們可以以極低的成本嘗試更多想法,并快速實(shí)現(xiàn)高質(zhì)量的作品。因此,我們認(rèn)為這兩方面是并行不悖的:我們既面向日常使用場(chǎng)景,將這項(xiàng)技術(shù)普惠化,也在賦能高端專業(yè)用戶。
那些懂得如何使用這些工具的人,以及擁有愿景、敘事風(fēng)格和講故事能力的頂尖創(chuàng)意人士,能將這些工具發(fā)揮出更好的效用。
主持人:從文化角度看,一個(gè)有趣的問題是:未來(lái)娛樂內(nèi)容將如何演變?是會(huì)每個(gè)人都能定制自己感興趣的內(nèi)容,例如根據(jù)特定音樂風(fēng)格生成新曲目,或基于電影《勇敢的心》創(chuàng)建游戲體驗(yàn)?還是仍然保持一對(duì)多的創(chuàng)作模式?
從文化角度看,這個(gè)問題頗具哲學(xué)意味。我們是否仍然需要由創(chuàng)作者共同構(gòu)建的、具有共識(shí)性的敘事?抑或是每個(gè)人都將開始開發(fā)和構(gòu)建自己獨(dú)特的虛擬體驗(yàn)?
Demis Hassabis:基于我從90年代起從事游戲設(shè)計(jì)和編程的經(jīng)驗(yàn),我認(rèn)為當(dāng)前所見只是娛樂產(chǎn)業(yè)未來(lái)的起點(diǎn)。未來(lái)可能會(huì)出現(xiàn)全新的藝術(shù)形式或內(nèi)容類型。在這種模式下,雖然會(huì)存在一定程度的共同創(chuàng)作,但我始終認(rèn)為頂尖的創(chuàng)意愿景家仍將發(fā)揮關(guān)鍵作用。
這些創(chuàng)作者能夠構(gòu)建出引人入勝的體驗(yàn)和動(dòng)態(tài)敘事,即使使用相同的工具,他們的作品質(zhì)量也會(huì)遠(yuǎn)超普通用戶。與此同時(shí),數(shù)百萬(wàn)用戶不僅可以進(jìn)入這些世界,還能參與部分內(nèi)容的共同創(chuàng)造。在這種情況下,頂級(jí)創(chuàng)意者可能更傾向于扮演”世界編輯者”的角色。
這正是我們接下來(lái)幾年希望探索的方向,目前正在通過Genie等技術(shù)逐步實(shí)現(xiàn)這個(gè)愿景。
八、大量時(shí)間投入AI藥物發(fā)現(xiàn)公司,明年進(jìn)入臨床前期研究階段
主持人:你如何分配你的時(shí)間?也許你可以談一下Isomorphic,你是不是在那兒投入了大量時(shí)間?
Demis Hassabis:是的,我確實(shí)投入了大量時(shí)間。這是一家從DeepMind拆分出來(lái)的公司,正致力于通過蛋白質(zhì)折疊技術(shù)AlphaFold的突破來(lái)革新藥物發(fā)現(xiàn)領(lǐng)域。
雖然理解蛋白質(zhì)結(jié)構(gòu)是關(guān)鍵突破,但這只是藥物研發(fā)過程中的一個(gè)環(huán)節(jié)。Isomorphic正在開發(fā)與AlphaFold相關(guān)的多項(xiàng)技術(shù),致力于設(shè)計(jì)能夠精準(zhǔn)靶向蛋白質(zhì)且避免副作用的化合物。
我們預(yù)計(jì)能將藥物發(fā)現(xiàn)周期從現(xiàn)在的數(shù)年甚至十年,縮短到數(shù)周級(jí)別。目前我們正在構(gòu)建技術(shù)平臺(tái),與禮來(lái)、諾華等制藥企業(yè)建立了深度合作。
同時(shí)我們也在推進(jìn)內(nèi)部藥物研發(fā)項(xiàng)目,預(yù)計(jì)明年進(jìn)入臨床前期研究階段,后續(xù)將由合作伙伴推進(jìn)臨床實(shí)驗(yàn)。我們的研究重點(diǎn)涵蓋癌癥、免疫學(xué)和腫瘤學(xué)等領(lǐng)域,并與MD安德森癌癥中心等機(jī)構(gòu)保持合作。
主持人:在藥物發(fā)現(xiàn)領(lǐng)域,我們需要如何平衡確定性模型(基于物理化學(xué)原理)與概率性模型(基于數(shù)據(jù)訓(xùn)練)的協(xié)同工作?
Demis Hassabis:我們正在構(gòu)建混合模型系統(tǒng),未來(lái)5年也是如此。以AlphaFold為例,它既包含基于神經(jīng)網(wǎng)絡(luò)和Transformer的概率學(xué)習(xí)部分,也整合了化學(xué)物理規(guī)則的確定性約束。
在生物化學(xué)領(lǐng)域,數(shù)據(jù)稀缺是常態(tài),因此需要融入已知的科學(xué)原理作為約束條件。比如原子之間的鍵角,讓模型理解原子之間不能相互重疊等。
理論上,它可以從數(shù)據(jù)中學(xué)習(xí)這些,但那將浪費(fèi)大量的學(xué)習(xí)能力,因此最好將這些作為約束條件納入其中。
就像AlphaGo一樣:讓一個(gè)神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)識(shí)別棋局中的模式,再在上面加一層蒙特卡洛樹搜索來(lái)做規(guī)劃。難點(diǎn)在于如何把學(xué)習(xí)型子系統(tǒng)與人工定制的子系統(tǒng)無(wú)縫結(jié)合。
主持人:這種架構(gòu)能否帶來(lái)通向AGI的突破?
Demis Hassabis:我認(rèn)為,一旦把混合系統(tǒng)跑通,下一步就是把得到的知識(shí)反哺回學(xué)習(xí)組件,盡量做端到端學(xué)習(xí),讓模型直接從數(shù)據(jù)里預(yù)測(cè)目標(biāo)。
一旦用混合系統(tǒng)完成了初步研究,就可以進(jìn)行逆向工程,看看是否可以將這些信息納入學(xué)習(xí)系統(tǒng)。
這正是AlphaZero的做法:拋棄人類棋譜和圍棋專用知識(shí),從零自我對(duì)弈,結(jié)果不僅能下圍棋,還能通吃任何棋類。
九、AGI將開啟科學(xué)的黃金時(shí)代
主持人:AI的能源需求是一個(gè)熱點(diǎn)話題。這些能源需求將從何而來(lái)?模型架構(gòu)、硬件,或者模型與硬件的協(xié)同會(huì)不會(huì)逐漸改進(jìn),最終把每個(gè)token的能耗或成本降下去,讓總能源需求曲線走平?還是說并不會(huì),我們?nèi)砸鎸?duì)一條很陡的需求曲線?
Demis Hassabis:我認(rèn)為這兩種情況都是正確的。在谷歌DeepMind,我們專注于打造非常高效的模型,因?yàn)槲覀冊(cè)趦?nèi)部有很多用例,需要為數(shù)十億用戶提供AI服務(wù)。模型必須極其高效,極其低延遲,并且成本低廉。
因此,我們開創(chuàng)了許多技術(shù),使我們能夠做到這一點(diǎn),比如蒸餾,讓大模型教小模型。過去兩年,在同樣的性能水平上,模型效率提高10倍甚至100倍。
現(xiàn)在,能源需求沒有減少的原因是,我們還沒有達(dá)到AGI。對(duì)于前沿模型,我們需要更大規(guī)模上嘗試和實(shí)驗(yàn)新的想法。但在服務(wù)端,模型正變得越來(lái)越高效。所以這兩種情況都是正確的。
最終,從能源角度來(lái)看,我認(rèn)為AI系統(tǒng)將在能源和氣候變化等方面回饋更多,而不是消耗更多。在未來(lái)10年內(nèi),AI將在電網(wǎng)系統(tǒng)、電力系統(tǒng)、材料設(shè)計(jì)、新型材料、新型能源來(lái)源等方面發(fā)揮巨大作用,這些貢獻(xiàn)將遠(yuǎn)遠(yuǎn)超過它今天所消耗的能源。
主持人:作為最后一個(gè)問題,請(qǐng)描述一下10年后的世界。
Demis Hassabis:哇,10年甚至10周在AI領(lǐng)域都是一段很長(zhǎng)的時(shí)間。但我確實(shí)認(rèn)為,如果我們能在未來(lái)10年內(nèi)實(shí)現(xiàn)AGI,那么這將開啟一個(gè)科學(xué)的新黃金時(shí)代。一場(chǎng)新的文藝復(fù)興。我們將在能源、醫(yī)療等各個(gè)領(lǐng)域見證AGI帶來(lái)的好處。
來(lái)源:Youtube @allin