這項由螞蟻集團聯合倫敦帝國理工學院的洪浩洋等研究人員完成的研究,發表於2025年11月18日的arXiv預印本伺服器(論文編號:arXiv:2511.13288v2),有興趣深入了解的讀者可以通過該編號查詢完整論文。這項研究提出了一個名為M-GRPO的全新訓練框架,專門用於培訓多個AI模型之間的協作能力,就像培訓一支專業團隊一樣讓每個成員發揮所長。
現在的AI助手就像一個全能但不夠專業的通才。當你問它一個複雜問題時,它需要既做規劃師,又當研究員,還要充當執行者,這樣往往導致在某些專業領域表現不夠出色。螞蟻集團的研究團隊意識到,真實世界中的複雜任務往往需要不同專業背景的人協作完成,比如一個醫療診斷項目需要臨床醫生、影像專家和病理學家共同參與。基於這個觀察,他們提出了一個大膽的想法:能否讓不同的AI模型像人類專業團隊一樣分工合作,每個模型專注於自己最擅長的任務?
這個想法聽起來簡單,但實現起來卻面臨著巨大挑戰。就像組建一支樂隊一樣,每個樂手都有自己的演奏節奏和風格,如何讓他們完美配合演奏出一首和諧的樂曲呢?在AI領域,這個問題更加複雜,因為不同的AI模型可能運行在不同的伺服器上,它們的工作頻率不同,處理的任務類型也不同。傳統的訓練方法就像讓所有樂手按照同一個節拍演奏,結果往往是不協調的噪音而非美妙的音樂。
為了解決這個問題,研究團隊開發了M-GRPO(多智能體群體相對策略優化)框架。這個框架的核心思想是建立一個垂直分工的團隊結構,就像一個建築工程項目中的總工程師和各專業分包商的關係。在這個體系中,主智能體扮演項目經理的角色,負責理解用戶需求、制定整體計劃、分配具體任務,並最終整合各方結果給出答案。而子智能體們則像各個專業分包商,專門負責執行特定類型的任務,比如網路搜索、資訊分析、數據處理等。
這種分工協作的方式帶來了顯著的好處。就像專業分工讓現代社會運轉更高效一樣,讓每個AI模型專注於自己最擅長的領域,可以大大提升整體性能。主智能體不再需要在所有方面都做到完美,它只需要做好協調和決策工作。而子智能體也可以在各自的專業領域深度優化,就像專科醫生比全科醫生在特定疾病診斷上更加精準一樣。
然而,訓練這樣的多智能體協作系統面臨著前所未有的技術挑戰。最大的難題是如何處理不同智能體之間工作節奏不匹配的問題。在一次完整的任務執行過程中,主智能體可能只需要做一次決策,但可能需要調用子智能體多次來完成不同的子任務。這就像一個指揮官在一場戰鬥中只需要制定一個總體策略,但需要多次調度不同的作戰單位執行具體任務。傳統的訓練方法無法很好地處理這種不對稱的工作模式。
為了解決這個關鍵問題,研究團隊設計了一套巧妙的軌跡對齊機制。他們的方法就像製作一部電影時的剪輯工作。在拍攝過程中,不同演員的戲份長短不一,有的演員可能只有幾個鏡頭,有的演員卻要出現在大部分場景中。為了讓最終的電影呈現出完整統一的效果,剪輯師需要巧妙地安排和平衡每個演員的戲份。M-GRPO框架採用了類似的策略,通過智能地複製或刪減某些智能體的行為軌跡,確保在訓練時每個智能體都能獲得足夠且平衡的學習機會。
具體來說,系統會首先設定一個目標調用次數,比如8次。如果在某次任務中主智能體只調用了子智能體3次,系統就會隨機選擇其中一些調用過程進行複製,直到達到8次。反之,如果調用次數超過了8次,系統就會隨機刪除一些調用過程。這種做法就像烹飪時調整配料比例,確保每種味道都能在最終的菜品中得到適當體現。
更加創新的是,M-GRPO框架還設計了一套分層的獎勵機制。這套機制就像一個公司的績效評估體系,不僅要看個人表現,還要看團隊整體效果。對於主智能體,系統主要關注最終輸出的質量和格式正確性。而對於子智能體,評估則更加複雜,需要同時考慮三個方面:首先是輸出格式是否規範,就像文檔是否按照公司標準格式撰寫;其次是對最終結果的貢獻度,就像個人工作是否有助於項目成功;最後是任務執行的專業水準,就像技術人員是否按照最佳實踐完成了分配的技術任務。
為了驗證這套框架的有效性,研究團隊設計了一個兩階段的訓練課程。第一階段類似於基礎訓練,讓智能體們學會基本的協作規範和輸出格式。就像新員工入職培訓一樣,這個階段使用相對簡單的任務,讓智能體們熟悉彼此的工作方式和溝通協議。第二階段則是高級協作訓練,使用更加複雜和具有挑戰性的任務,讓智能體們學會處理現實世界中的複雜問題。
實驗結果令人振奮。研究團隊在三個不同的真實世界基準測試中驗證了M-GRPO框架的效果,這些測試包括GAIA(通用AI助手能力測試)、XBench-DeepSearch(深度搜索能力測試)和WebWalkerQA(網頁瀏覽問答測試)。結果顯示,使用M-GRPO訓練的多智能體系統在所有測試中都明顯超越了傳統的單一智能體系統和固定子智能體的多智能體系統。
特別值得注意的是,這種提升不是一次性的幸運結果,而是在整個訓練過程中持續顯現的穩定改進。就像一支球隊通過系統訓練逐漸提高配合默契一樣,使用M-GRPO訓練的智能體團隊在協作能力上展現出了持續的進步軌跡。更重要的是,這種協作能力表現出了良好的泛化性,即使面對訓練時沒有見過的新任務類型,協作系統仍能保持優異表現。
研究團隊還進行了詳細的消融實驗,就像解剖一台精密機器來理解每個部件的作用一樣。他們發現,同時訓練主智能體和子智能體比只訓練主智能體效果更好,而多智能體協作比單智能體處理複雜任務效果更佳。這證實了"專業分工"和"協同優化"這兩個核心設計理念的正確性。
軌跡同步機制的重要性也得到了實驗驗證。就像樂隊演奏時需要統一節拍器一樣,這種同步機制確保了不同智能體在訓練過程中保持步調一致,避免了因為工作頻率不匹配而導致的訓練不穩定問題。實驗數據清楚地顯示,採用同步機制的版本比不採用同步的版本表現更加穩定和優秀。
為了讓讀者更直觀地理解這項技術的實際效果,研究團隊還展示了一些具體的案例。比如在處理一個關於魔方拼圖的邏輯推理問題時,訓練前的系統傾向於調用網頁瀏覽工具去搜索答案,這顯然是錯誤的策略選擇。而訓練後的系統學會了正確識別這是一個邏輯推理問題,轉而調用專門的邏輯推理工具,最終給出了正確答案。這個例子生動地展示了智能體如何學會為不同類型的問題選擇最合適的解決工具。
另一個有趣的案例涉及任務分解和分配能力的改進。在處理一個關於入侵物種的複雜查詢時,訓練前的系統給子智能體分配的任務描述模糊不清,導致子智能體搜索到的資訊不夠準確。訓練後的系統學會了提供更加精確和詳細的任務描述,明確指出需要查找"因寵物釋放而變成入侵物種"的特定資訊,以及需要查詢的具體時間範圍和數據來源。這種改進直接導致了最終答案準確性的顯著提升。
從技術實現角度來看,M-GRPO框架的另一個重要創新是去中心化的訓練架構。傳統的多智能體訓練往往需要將所有智能體部署在同一個計算集群中,這不僅限制了系統的可擴展性,還可能因為硬體故障影響整個訓練過程。M-GRPO採用了類似於分布式團隊工作的模式,不同的智能體可以運行在不同的伺服器上,只需要通過一個共享的資料庫交換必要的訓練統計資訊。這種設計大大提高了系統的靈活性和穩定性,也使得大規模部署成為可能。
這項研究的意義遠不止於技術層面的突破。它為人工智慧領域指出了一個新的發展方向:從追求單一模型的全能化,轉向構建專業化智能體的協作網路。這種思路更加貼近人類社會的組織方式,也可能是實現更強人工智慧的重要途徑。當我們面對越來越複雜的現實世界問題時,單一智能體的能力終究是有限的,而專業化分工和協作可能是突破這個瓶頸的關鍵。
當然,這項研究也還存在一些局限性和未來需要探索的方向。目前的框架主要針對的是一個主智能體配合多個子智能體的垂直協作模式,而現實中可能還需要更加複雜的網路化協作模式。此外,如何讓智能體自主學會任務分解和協作策略,而不是依賴人工設計的協作框架,也是一個值得探索的研究方向。
從應用前景來看,這項技術可能會在很多領域產生深遠影響。在客戶服務領域,我們可能會看到由不同專業智能體組成的服務團隊,每個智能體專門處理特定類型的客戶問題。在教育領域,可能會出現由教學智能體、答疑智能體和評估智能體協作的個性化學習系統。在醫療領域,不同的智能體可能專門負責症狀分析、診斷建議、治療方案推薦等不同環節。
說到底,M-GRPO框架代表了人工智慧發展的一個重要轉折點。它告訴我們,未來的人工智慧可能不再是一個無所不能的超級大腦,而更像是一個高效協作的專業團隊。每個成員都有自己的專長,但通過精心設計的協作機制,能夠共同解決遠超任何單個成員能力的複雜問題。這種理念不僅可能帶來技術性能的提升,也為我們重新思考人工智慧與人類社會的關係提供了新的視角。畢竟,最成功的人類組織往往也是基於專業分工和有效協作的,人工智慧系統或許也應該遵循類似的組織原則。
對於普通人來說,這項研究預示著我們未來可能會接觸到更加智能和專業的AI服務。當我們向AI助手提出複雜問題時,背後可能是一個由多個專業AI組成的團隊在為我們工作,每個AI都在自己最擅長的領域發揮作用,共同為我們提供更加準確和有用的答案。這種變化可能會讓AI服務變得更加可靠和實用,真正成為我們工作和生活中不可或缺的智能夥伴。
研究團隊已經將相關代碼和數據集開源,有興趣的技術人員可以通過GitHub平台獲取完整的實現細節。這種開放的態度不僅有助於推動整個領域的發展,也為其他研究者驗證和改進這項技術提供了便利。相信在不久的將來,我們會看到更多基於這一框架的創新應用和改進方案。
Q&A
Q1:M-GRPO是什麼技術?
A:M-GRPO是螞蟻集團開發的多智能體群體相對策略優化框架,專門用於訓練不同AI模型之間的協作能力。它讓多個AI模型像專業團隊一樣分工合作,主智能體負責規劃和協調,子智能體專門執行特定任務。
Q2:多智能體協作比單一AI有什麼優勢?
A:多智能體協作就像專業分工一樣,每個AI可以專注於自己最擅長的領域,整體性能更好。實驗顯示在GAIA、XBench-DeepSearch等測試中,協作系統明顯超越了單一AI系統,特別是在處理複雜任務時效果更明顯。
Q3:普通人什麼時候能用上這種協作AI技術?
A:雖然研究團隊已經開源了代碼,但這主要面向技術開發者。對普通用戶來說,可能需要等待相關公司將這項技術集成到實際產品中。未來我們使用AI助手時,背後可能就是這樣的多智能體團隊在協作工作。






