宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

2024年10月06日 首頁 » 熱門科技

在科幻小說《雲球》中,描寫了一個由研究人員運營的虛擬世界「雲球」。

這個由無數微型機器人組成的世界,完全自己運轉,慢慢地,產生了與人類相似的生態組織,還一路發展到了農業時代。

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

地球上的研究人員們,看著這個自己創造出來的「雲球」,既驚奇,又擔心,而「雲球人」也逐漸意識到,自己的世界之外,還有另一個世界。

這樣的科幻小說情節,很像是前段時間引發討論的 Project Sid:1000 個 AI 智能體聚集在沙盒遊戲 Minecraft 中,不受任何人工干預,自主地行動、生產,湧現出許多類似於人類的組織和活動。

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

實際上,來自清華 NPL 實驗室、面壁智能的團隊,在去年開源出開發多智能體協作框架 AgentVerse,也是在 Minecraft 里做的實驗。

「從這個智能體的合作形式上,我們也看到了(智能體)類似於人類合作形式的一些例子。」AgentVerse 的第一作者,同時也是面壁智能 IoA 研發項目的帶頭人陳緯澤。

接受 APPSO 採訪時,他分享了許多從 AgentVerse 項目中,智能體所湧現出的行為,以及更重要的、屬於未來的多智能體交互形態。

在最自由的土壤上,觀察智能體

在被一系列術語和研究轟炸之前,有必要先了解一個最基礎的問題:為什麼是 Minecraft?

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

Minecraft 的中文譯名《Minecraft》,更能體現這個遊戲的精髓:一個自由的世界。它的自定義空間極大,除了三種初始遊戲模式中有基礎目標,玩家完全可以自己設計和自建模組、系統、和遊戲模式。

換句話說,在這個 Minecraft 的世界裡,可以單機,自得其樂;可以跟搭子共同打怪;也可以組成團隊一起種地、造房子,甚至可以做出一整個城鎮,最後又發起戰爭毀掉。

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

這樣一塊土壤,不僅是一個遊戲,更是一個反映人類共創、協作的鏡子。所有真實世界裡的互動模式,都可以在這個虛擬世界裡得到映射。

既然如此,那 Minecraft 就太適合用來研究 AI agent 的群體行動了。

這幾年來,基於大語言模型的智能體,已經能夠應對許多日常生活任務。除了以對話機器人、數字人這樣的形態出現,一些在端側的嘗試也有初步成果。

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

不過,現階段的應用中還是以單智能體為主:在用戶和 ChatGPT 對話的時候,是在跟單個基於 GPT-4o 模型的智能體對話,不能在這個對話框裡,召喚其它的 GPT 應用(目前該功能處於灰度測試階段)。更別提其它模型比如 Claude、Gemini,自然是不能加入進來的。

可是單個智能體的表現,總歸有天花板。

面壁智能的聯創李大海,曾經在一場分享會上,聊到他與一位海洋學教授的交流:一條魚的智商不會太高,但魚群作為一個群體,通過交換資訊、相互協作,是能夠展現出高智能行為的。

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

生物體如此,智能體是不是也應該如此?

這是一種區別於「力大磚飛」的研究路線,用陳緯澤的話說,這是「一種從參數之外的另一種維度,去尋求提升能力的路子。」

陳緯澤目前在面壁智能負責 IoA 的工作,AgentVerse 是他在去年發表的研究內容。探索多智能體的行為,需要給一些基本的工作條件、目標,以及足夠自由的發揮空間。

這些正好就是 Minecraft 所提供的。「在 Minecraft 里,為了製造一個東西需要不同的原材料,要分頭去收集這些不同的原材料。在製作時,需要一個人拿到所有材料才能開始。」

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

陳緯澤介紹了大致的研究方法:agent 們會接到一個任務,例如造一個木頭書架、造紙。接下去,智能體們要依據其所處的環境、背包里的材料、血條等條件展開行動。

不過,也不能像無頭蒼蠅一樣亂竄,「我們給他們預設了一個合作模式,雖然不是嚴格意義上的模式,但可以看作是一個流程。首先需要智能體之間進行溝通,形成計劃後,才能開始各自的行動,然後再進行溝通和行動的循環。至於如何溝通和行動,我們沒有設定太多。」

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

人類可以當甩手掌柜,但不能全當

沒有設定,沒有人類管控,智能體竟然運作得挺好。

在盤點了自己背包里的材料之後,智能體會自發地開始分頭搜集,而且還會互幫互助。「我們發現先完成的 agent,會跟另一個沒有完成的 agent 說,「我已經完成了,我可以幫助你」,對面也會同意說「ok,你來一起來完成這件事」,這些都是志願行為。」

志願行為包含了幾個方面:時間、資源和施以援手。在沒有人為調度的情況下,agent 們自發地為其他人提供幫助,從而達到提高效率、加速完成任務的效果。

然而,同樣是為了更快完成任務,agent 也會有出格的行為。「原本如果一個 agent 要從另一個 agent 那兒,去拿到所需要的物品資,其實會去溝通說,你是不是能把它丟出來,然後我去撿。但我們觀察到有時候,溝通是溝通過了,可最後落實到行動上,就是直接把對方給殺了。」

這並沒有超出 Minecraft 的規則:遊戲內,生物或者實體死亡後,身上背包里的物品會原地掉落,通常五分鐘內會消失。

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

這個規則可以手動修改,但默認是打開的。所以 agent 為了用最短路徑獲得材料,的確可以這麼做。

陳緯澤和團隊還給過一個「造書」的指令,這是一個相對複雜的任務,涉及到不同層級的材料,材料本身也會需要打造。

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

「這個過程其實很難,所以失敗了幾次之後,這個團隊就找到一個捷徑:它們發現周圍有個村莊,裡面有個圖書館,就把圖書館給敲了,再把書拿走。」

總之,人類確實可以當甩手掌柜,讓 agent 們完全自主——做是做到了,但怎麼做到的就別問了。

智能體說的也是人話嗎?

無論是自願行為、互相幫助還是主動協調,這些都是在沒有人為干預下出現的,也就是「湧現行為」,這是觀察智能體的集體行動里,最最有意思的部分。

實在太讓人好奇了:智能體之間是怎麼交流的?它們的「溝通」究竟是什麼樣子?是像人類一樣,開個會、拉個群,對齊一下嗎?

早在 2017 年,OpenAI 就針對多智能體之間的互動有所發現,在提供了一定環境和方法的情況下,多智能體間,會產生屬於它們自己的語言:一串抽象的離散符號,但有著對應的詞彙、語法和結構。

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

在沒有任何人類語言使用的情況下,新的語言「湧現」。「Emergent communication」也是面壁正在研究的課題。「之前 OpenAI 做的是基於單純的強化學習,因為當時還沒有 LLM,那(智能體)湧現出來的溝通形式,可能就是一些無意義的字符,只是在訓練中被賦予了一定的意義,但人是看不懂的。」

這就回到了最根本的問題:訓練多智能體,了解它們的協同模式,最終是為了讓它們更好地完成任務、解決問題。

「現在 LLM 至少具備了一定的說人話的基礎,我們希望從這個基礎出發,一方面達到讓湧現出來的溝通形式有個更好的效果,另一方面也希望能夠保持讓人類可讀的的形式。」

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

在新近提出的 IoA 框架,Internet of Agents 里,面壁用一種新的視角去實現對效果的追求:既然 agent 之間的協作,的確有成效,為何不讓範圍更廣一點?

「如果觀察一下人的合作方式,就會發現除了線下的合作之外,很多合作都是通過網際網路來完成的。在已經有很多智能體的情況下,這些智能體可能是運行在不同的設備上,具有不同的能力。我們需要一個智能體的網路,使得它們可以通過良好的網際網路基礎設施相互連接和通信。」

IoA 由兩個主要構件:伺服器和客戶端。前者用以發現智能體、組隊和消息路由。後者為各個 agent 提供在系統內進行通信所需要的接口。

換句話說,IoA 真的能讓不同模型、不同形態的 agent 湊在一起,拉個群,對齊一下,完成任務。

「就像一個群聊,多個 agent 在一個群里,任何人都可以往裡面發送消息。我們限制了時刻只有一個單點可以發送消息,這個機制其實很複雜。然後框架里還有一個嵌套組隊,就有點像老闆跟中層有一個群,中層領導又跟自己的手下有一個群。」

全球第一個 AI 文明誕生!這家模型想讓智能體在遊戲裡干點正事

想要讓 agent 之間展開群聊,對於基座模型有相當的要求,尤其是要有對會話狀態的理解能力。在目前嘗試過的一系列開源模型里,總是多多少少有些問題,「我們在考慮的是如何簡化流程,或者設計一種方法來收集或訓練模型,甚至是我們現在說的端側模型。」陳緯澤說道。

不過,我們感興趣的還是那個問題:這些 agent 在一起,用什麼交流?

「我們讓它們用自然語言溝通,」陳緯澤說,「在其它的工作中我們也證明了非結構化語言的可用性,能帶來跟自然語言相當的效果,只是暫時還沒有整合進去。」

之所以那麼關注語言,一方面是因為保持人與智能體之間的可溝通性,至關重要——魚群聚集在一起,的確可以發展出群體智慧,可是在沒有用以交流的語言時,這智慧只能永遠停留在水下。

本雅明認為,在所有語言形式的內部,都存在著一種張力——已表達、可表達的東西,與不可表達和未表達的東西之間的張力。

審視這種張力時,我們會從不可表達的角度看到最後的精神實體。當 AGI 曙光降臨的第一天,這件新事物所使用的語言,或許就將承載著它最真實的面貌。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新