阿里巴巴AMAP研究院提出「角色智能體」：讓一個AI同時扮演學生和老師，自我進化解決複雜任務

這項由阿里巴巴AMAP與中國科學技術大學聯合開展的研究，於2026年6月發表在arXiv預印本平台，論文編號為arXiv:2606.10917v1。對論文感興趣的讀者可以通過該編號在arXiv上找到完整內容。

贊助商廣告

**一位學生，同時也是一位老師**

在日常學習中，有一種效果被反覆證明極其有效——當你嘗試向別人解釋一件事時，你對這件事的理解會比單純自己讀書深刻得多。心理學家把這叫做"費曼學習法"：講給別人聽，是檢驗自己是否真正理解的最好方式。現在，這群來自阿里巴巴和中科大的工程師與研究者，把這個道理用到了人工智慧身上，創造出了一個名叫"Role-Agent（角色智能體）"的框架，讓同一個AI既扮演"解題的學生"，也扮演"出題的老師"，在這種角色切換中不斷自我提升。

要理解這項研究的意義，先得明白現在的AI"學習"面臨什麼困境。

當一個AI智能體被放進某個任務環境裡，比如讓它在模擬家居場景中完成"把一塊乾淨的肥皂放到衛生紙架上"這類任務，它需要一步一步地做決定：先去哪個柜子找肥皂？找到肥皂後要先洗乾淨嗎？然後去哪裡放？整個過程就像一個人在陌生的家裡按照主人的要求找東西、做事情。每做完一步，環境會給出反饋，告訴它"成功了"還是"失敗了"。AI根據這些反饋調整自己的策略，慢慢變得更聰明。

但問題在於，這種學習方式效率很低，原因有兩個。第一，環境給出的反饋太稀疏，往往只告訴AI"最終有沒有完成任務"，卻不告訴它"在哪一步出了問題、為什麼出問題"，就像老師批改試卷只寫"不及格"卻不指出錯在哪道題一樣。第二，任務的題庫是固定的，AI總是在同樣的一批題目上練習，碰到自己不擅長的類型也不會被特別加強訓練，久而久之短板始終補不上。

有人嘗試過建造"合成環境"來解決這個問題——專門搭一個能根據AI表現動態調整的虛擬訓練場。但這樣做成本極高，需要額外的模型、額外的工程師、額外的計算資源，整個系統變得極為複雜。

贊助商廣告

Role-Agent提出了一個更優雅的解法：既然我們已經有一個足夠強大的大語言模型，為什麼不讓它同時扮演兩個角色？作為"學生"，它負責完成任務、與環境交互；作為"老師"，它負責審視自己的失敗、找出問題所在、調整練習計劃。這兩個角色在同一個模型里共存，形成一個自給自足的閉環進化系統。

**二、這個框架究竟是怎麼運轉的？兩個關鍵設計**

Role-Agent的核心由兩個模組構成，研究團隊分別給它們起了頗有詩意的名字：World-In-Agent（世界住在智能體裡，簡稱WIA）和Agent-In-World（智能體住在世界裡，簡稱AIW）。

先來說說第一個模組WIA，也就是"讓AI預測自己行動的後果"。

回到那個在家裡做任務的例子。普通的AI在做每一個決定時，是基於當前看到的狀態來選擇下一步行動，但並不會主動思考"我這樣做了之後，房間會變成什麼樣"。WIA的創新在於，它要求AI在每次做出行動之後，額外生成一段預測：接下來的一步、兩步，環境狀態會是什麼樣？

打個具體的比方：一個棋手在落子之前，不僅要決定下哪裡，還要在腦海中預演"我下了這一步，對手可能怎麼應對，棋局會變成什麼局面"。這種對未來局勢的預判能力，正是高手和普通棋手的核心區別。WIA就是在給AI訓練這種"往前看"的能力。

AI做出行動後，研究者會把AI的預測狀態和真實發生的狀態做對比，看預測有多準確。這個準確度被轉化為一種額外的"預測獎勵"——預測越准，說明AI對這個環境理解得越深，應該給予更多的正向激勵；預測越差，說明AI是在靠運氣做對了事，這種僥倖成功不應該得到太多鼓勵。

這裡有一個精妙的設計細節值得關註：這個預測獎勵不是簡單地疊加在原有獎勵上，而是以乘法的方式與原有的任務獎勵結合。具體來說，最終的獎勵等於任務獎勵乘以（1加上預測獎勵）。這樣設計的邏輯非常清晰：如果AI完成了任務（有任務獎勵），而且對環境理解準確（預測獎勵高），那最終激勵就被放大了；如果AI僥倖完成了任務但對環境完全沒搞懂（預測獎勵低），激勵就被壓縮了；更重要的是，如果AI根本沒完成任務（任務獎勵為零），不管預測有多准，乘以零都等於零，不會讓失敗的軌跡因為"猜對了幾個狀態"就得到獎勵。

贊助商廣告

除了預測獎勵，WIA還引入了另一種叫做"狀態分組優勢"的技術。研究者注意到，在訓練過程中，AI會多次經歷完全相同的環境狀態。傳統方法會把這些情況混在一起評估，而研究團隊選擇把發生在同一個狀態下的所有行動歸為一組，單獨比較"在這個狀態下，哪種行動更好"。這就像老師在評分時，不是把所有學生的成績放在一起排名，而是按照"面對同一道題的同學"來比較誰的解法更優——這樣得到的評價更加公平、更有針對性。最終，每個行動的評分是狀態層面的相對優劣（乘以係數α）再加上整條軌跡的整體優劣，兩者結合給出最終信號。

接下來看第二個模組AIW，也就是"讓AI自己分析自己的失敗"。

每次AI搞砸了一個任務，研究團隊不會直接丟棄這次失敗的經歷。他們會把整條失敗的軌跡——包括任務描述、每一步的觀察和行動——餵給同一個大語言模型，讓它以"分析師"的身份審視這次失敗：這次失敗的根本原因是什麼？是某種固定的錯誤模式嗎？在哪一步事情開始走向不可挽回？如果要給未來的AI一條經驗，應該說什麼？

模型會輸出一份結構化的"失敗診斷報告"，其中包括失敗類型（比如"實體混淆"——拿錯了東西、"前提條件缺失"——沒做清潔就直接放置），失敗原因的細節描述，以及一段"檢索查詢詞"——這個查詢詞會在後續步驟中用於尋找相似的失敗案例。

所有這些失敗診斷都被存進一個離線的"失敗記憶庫"。每過一段時間，系統會把當前正在犯的錯誤模式和記憶庫里的歷史案例做對比，找出"有著相似失敗根源"的歷史任務，然後把這些任務重新加入到當前的訓練隊列里，提高它們被選中練習的概率。

這個設計的精妙之處在於，它不是簡單地"把失敗的任務多練幾遍"，而是通過理解失敗的內在模式，把表面上看起來不一樣、但本質上考察同一個薄弱點的任務串聯起來集中攻克。就像一個學數學的學生發現自己總是在"分式化簡"這類題上出錯，那老師不僅會讓他再做一遍原來那道題，還會找來所有考察同一知識點的不同題目讓他訓練，直到這個弱點被徹底克服。

贊助商廣告

在實際操作中，研究團隊在ALFWorld這個家居任務測試集上識別出了11種獨特的失敗模式，涵蓋了諸如"重複探索"、"目標位置判斷錯誤"、"放錯了容器"等多種類型。整個失敗記憶庫的儲存和檢索成本極低，對整體運行速度幾乎沒有影響。

**三、在三類任務上的實際考驗，成績如何？**

研究團隊在三種類型的任務上測試了Role-Agent，每種任務都代表著AI智能體在現實世界中需要應對的不同挑戰。

第一類是ALFWorld，一個模擬家居環境的文本交互平台，AI需要用文字命令在虛擬房間裡完成各種家務目標，比如"把一塊加熱過的蘋果放到桌上"、"在檯燈下檢查鬧鐘"等，每個任務都需要多步驟的導航、物品拾取和狀態變換。第二類是WebShop，一個模擬電商平台，包含真實世界裡的超過118萬件商品，AI需要通過搜索和點擊來找到符合用戶需求的商品。第三類是搜索增強問答，包含需要單跳（一步就能回答）和多跳（需要綜合多個資訊源才能回答）的各類知識問答，AI需要決定何時搜索、搜什麼、何時停止搜索並給出答案。

實驗中，研究團隊使用了阿里巴巴的Qwen2.5系列模型作為基礎模型，分別測試了1.5億參數、30億參數和70億參數三種規格。對比的基準方法涵蓋了閉源商業模型（GPT-4o和Gemini-2.5-Pro）、提示工程方法（ReAct和Reflexion），以及目前表現最強的強化學習訓練方法（PPO、RLOO、GRPO以及此前最優的GiGPO）。

在ALFWorld上，Role-Agent配合最小的1.5B模型就達到了90.9%的平均成功率，比此前最強基準GiGPO的86.7%高出4.2個百分點。配合7B模型，成功率進一步提升至93.8%，相比GiGPO的90.8%提升了3個百分點。更值得關注的是在複雜子任務上的差距：需要穩定記憶和多步規劃的"在檯燈下檢查物體"任務，Role-Agent比GiGPO高出整整11個百分點；需要拿取兩件物品並擺放的組合任務上，Role-Agent高出13.6個百分點。這說明智能體在需要連貫推理的長鏈任務上，從"雙角色共進化"中獲益最為明顯。

贊助商廣告

在WebShop上，使用1.5B模型的Role-Agent成功率達到71.9%，相比GiGPO的65.0%提升了6.9個百分點。即便與直接使用GPT-4o提示的方法相比，Role-Agent也高出了大約48個百分點，顯示出強化學習訓練相對於提示工程的顯著優勢。

在搜索問答任務中，使用3B模型的Role-Agent在7個數據集上的平均準確率達到45.8%，比GiGPO的42.1%高出3.7個百分點。提升在多跳問答上更為突出：在需要綜合多個維基百科頁面資訊的2WikiMultiHopQA數據集上提升了8.2個百分點，在MuSiQue數據集上提升了5.2個百分點。這與理論預期完全吻合：角色共進化讓智能體學會了更有計劃地進行多步檢索和資訊整合。有一個細節是研究者坦率承認的：在單跳的NQ（自然問題）數據集上，Role-Agent比GiGPO稍低了一點點。研究團隊認為這恰恰說明Role-Agent沒有過度適應訓練集，而是朝著更好的泛化能力發展——犧牲了一點在最熟悉的領域上的微小優勢，換來了在陌生領域上的大幅提升。

**四、拆開來看：每個零件是否真的有用？**

為了驗證兩個模組各自的價值，研究團隊做了一組拆解實驗，分別去掉AIW模組或去掉預測獎勵機制，看性能會有什麼變化。

去掉AIW模組（也就是不再分析失敗、不再調整訓練數據分布），在ALFWorld上成功率從90.9%下降到87.5%，在WebShop上從71.9%下降到66.9%。去掉預測獎勵機制，在ALFWorld上下降到88.0%，在WebShop上下降到68.3%。兩個組件都有各自獨特的貢獻，而且兩個被拆解後的版本依然都超過了GiGPO（86.7%/65.0%），說明即便只用其中一半，也已經比之前最好的方法更強了。兩個模組相互補充、缺一不可。

研究團隊還深入分析了整個訓練過程中失敗模式庫的演變情況。在訓練的早期階段，記憶庫增長非常迅速，前15步就積累了996條記錄；隨著訓練推進，增速逐漸放緩，到第150步時總量穩定在3931條。這個現象說明，早期AI頻繁犯錯，失敗模式庫快速建立；後期AI越來越熟練，新的失敗類型越來越少出現，庫的增長自然趨於平穩。在所有失敗類型中，"重複探索"、"目標位置錯誤"和"放錯容器"占據了最大份額，說明這些是當前階段AI的主要短板所在。

贊助商廣告

超參數方面，研究者測試了兩個關鍵參數的敏感性。關於軌跡級優勢和狀態級優勢之間的權重係數α，取值1.0時效果最好，過小會削弱整體任務完成信號，過大則會稀釋狀態級的精細評價，就像調音師需要在各個頻段之間保持精準平衡一樣。關於預測步數H（即AI在每一步需要預測多少步之後的狀態），最佳取值是最大步數的5%。把H設得太長，意味著AI需要在上下文裡放入大量預測內容，這會占用寶貴的"工作記憶"，讓AI反而分不清輕重；而且預測太遠的未來必然越來越不準確，最終變成無意義的猜測，甚至引發"通過假裝預測準確來騙取獎勵"的問題。

**五、它快嗎？額外開銷有多大？**

一個自然的擔憂是：讓AI額外做預測和失敗分析，會不會讓整個系統慢到無法使用？

研究團隊做了詳細的時間拆分統計。在ALFWorld的每一步訓練中，整體運行時間約為519秒。其中，滾動生成軌跡本身占了大約176秒，是最大的時間開銷。Role-Agent新增的部分包括：預測生成約18.63秒，預測獎勵計算約0.14秒，AIW失敗分析約8.92秒。這三項加起來約27.69秒，只占總時間的5.2%左右。換句話說，Role-Agent只付出了5%多一點的額外時間代價，換來了顯著的性能提升，這個性價比相當可觀。

從訓練動態來看，Role-Agent在訓練初期有時會短暫落後於GiGPO，甚至出現一定的波動，但隨著失敗記憶庫逐漸充實、訓練數據分布持續調整，它的成功率會穩步攀升，最終達到更高的性能上限，並且收斂速度反而更快。研究團隊還發現了另一個有價值的現象：與GiGPO相比，Role-Agent的訓練時行為和推理時行為之間的差距更小。這種差距是強化學習訓練中常見的"訓練-推理不匹配"問題，差距越小說明訓練越穩定，梯度估計的方差越低，整體學習效率越高。

**六、這套思路的邊界在哪裡？**

研究團隊對自己工作的局限性保持了坦誠。第一個問題涉及公平性：如果用一個比當前模型更強的凍結模型來專門做AIW的失敗分析，分析質量會更高，但同時這引入了額外的外部知識，破壞了"與同等基準公平比較"的前提。第二個問題在於狀態分組機制依賴一個相似度閾值（當前設為0.9），這個值是從前人工作中沿用的，在不同類型的任務之間可能需要調整。第三個問題是整個框架目前只在純文本環境裡驗證過，還沒有延伸到涉及圖像的多模態任務或實時具身機器人場景，在那些場景下，"狀態"往往是視覺圖像而非文字描述，現有的文本匹配方法需要相應改造才能適用。

贊助商廣告

---

說到底，Role-Agent做的這件事，可以用一句話來概括：同一個AI，既當學生又當老師，在自問自答中越來越強。這背後的核心洞察非常樸素——真正的學習不僅僅是重複練習，還需要理解"為什麼我錯了"和"我下次該怎麼避免"。以往的AI訓練往往停留在前者，而Role-Agent把後者也納入了閉環。

對於普通用戶來說，這類技術的進步意味著未來的AI助手在執行複雜任務時會更加可靠，比如讓AI幫你在購物網站上找到最符合要求的商品、讓AI在家居場景中按照你的指令完成多步驟操作，或者讓AI通過多輪搜索幫你整理一個複雜問題的答案，犯同樣錯誤的頻率會顯著降低。

更值得思考的是，這套框架提出了一種不需要構建額外模型或額外標註數據的自我進化路徑。在AI能力不斷增強的當下，如何讓一個模型在與世界的互動中高效地發現並修補自己的弱點，是AI長期發展中的關鍵問題之一。Role-Agent給出的這個答案——讓同一個模型扮演多個角色、在角色切換中實現共同進化——或許會成為未來更複雜的自進化系統的一塊重要基石。有興趣深入探究技術細節的讀者，可以前往arXiv通過編號2606.10917查閱完整論文，該研究的代碼也已在GitHub的AMAP-ML/roleagent倉庫開源。

---

Q&A

Q1：Role-Agent框架中的WIA（World-In-Agent）模組是怎麼工作的？

A：WIA要求AI在每次做出行動後，額外預測接下來幾步環境會變成什麼樣子。系統會把這些預測和實際發生的狀態做對比，對比結果轉化為"預測獎勵"，以乘法方式與任務獎勵結合。預測越准，說明AI對環境理解越深，正向激勵被放大；預測越差，激勵被壓縮，防止AI靠運氣完成任務。

Q2：AIW（Agent-In-World）模組是如何幫助AI克服弱點的？

A：每次AI失敗後，同一個模型會以"分析師"身份審視失敗軌跡，輸出包含失敗類型、原因和檢索詞的診斷報告，存入失敗記憶庫。系統會定期把當前的錯誤模式與歷史案例對比，把擁有相似失敗根源的任務重新加入訓練隊列，讓AI集中攻克同類弱點，而不僅僅是重複練習原來那道失敗的題目。

贊助商廣告

Q3：Role-Agent額外的預測和分析操作會不會讓訓練速度變慢很多？

A：實測結果顯示，Role-Agent新增的預測生成、獎勵計算和失敗分析三項操作合計只增加了約27.7秒，占總運行時間的5.2%左右。換句話說，只需額外付出約5%的時間代價，就能換來ALFWorld上超過4個百分點的成功率提升，性價比相當高。