這項由俄勒岡州立大學、賓夕法尼亞州立大學與Adobe公司聯合開展的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.24202,有興趣深入了解的讀者可通過該編號查詢完整原文。
當AI也開始"組團刷題"
假設你要準備一場重要的數學考試。一個聰明的方法是找幾個同學一起練習:一個人先解題,另一個人檢查答案並指出錯誤,然後大家討論修改。這種分工合作的方式,直覺上比一個人悶頭苦練應該更有效。
大型語言模型(也就是我們常說的AI大模型,比如ChatGPT背後的技術)也面臨同樣的問題:單個AI在完成數學推理、代碼編寫等高難度任務時存在上限,於是研究者們搭建起了"多智能體工作流"——把任務拆分給多個扮演不同角色的AI來協作完成。更進一步,研究者們還嘗試用強化學習(一種通過"做對了有獎勵、做錯了沒獎勵"來訓練AI的方法)來讓這個AI團隊越練越強。
然而,一個令人困惑的現實擺在面前:這些AI團隊在聯合訓練時,有時確實表現得更好,但有時反而會崩潰,甚至越練越差。更棘手的是,沒有人能說清楚,到底在什麼情況下聯合訓練有幫助,失敗的原因究竟是什麼。
這項研究的目標,正是系統性地回答這個問題。研究團隊搭建了一個龐大的實驗矩陣,橫跨三種不同的AI團隊協作模式、三種模型規模,以及數學和代碼兩種任務類型,同時比較了兩種不同的訓練策略。研究的核心發現顛覆了許多人的直覺:訓練的成敗不取決於某一個單一因素,而是由團隊結構、任務類型和規模共同決定的。而且,所謂"更安全"的訓練方式,只是把失敗的形式換了一種,並沒有真正消除問題。
一、研究的實驗舞台:三種AI團隊,兩種訓練策略
要理解這項研究,先得熟悉它搭建的實驗舞台。研究團隊設計了三種不同結構的AI協作團隊,每種團隊都有各自獨特的分工方式。
第一種叫"評估-優化"工作流。顧名思義,這個團隊裡有兩個角色:一個負責生成答案的"生成者",以及一個負責評審和提出批評意見的"評估者"。生成者先給出初稿,評估者審查後決定接受還是打回去修改,如果打回去,生成者就根據批評意見重新來過,如此反覆幾輪。這就好比一篇文章的作者和編輯的關係——作者寫稿,編輯審稿並提意見,作者再修改,直到編輯滿意為止。
第二種叫"投票"工作流。這裡有三個獨立的"投票者"和一個"匯總者"。三個投票者各自獨立地對同一道題給出解答,然後匯總者從三份答案中選出最好的或者綜合它們得出最終答案。可以把這理解成三個律師分別為同一個案子準備辯護詞,然後一位主任律師選出最有力的版本。
第三種叫"編排者-工作者"工作流,是最複雜的一種。這裡有一個"編排者"負責規劃思路和拆解任務,三個"工作者"並行處理具體任務,最後一個"綜合者"把三個工作者的成果整合成最終答案。用一個生活化的比喻來描述:編排者像是項目經理,制定計劃並分配工作;三個工作者像是具體執行的員工;綜合者則像是負責匯報和收尾的產品經理。
搭建好團隊之後,研究團隊還比較了兩種截然不同的訓練策略,這是整個研究的核心對比維度。第一種叫"獨立策略"訓練,意思是每個角色都有自己獨立的"大腦"(技術上稱為獨立的參數適配器),生成者的訓練經驗只更新生成者自己的大腦,評估者的訓練經驗只更新評估者自己的大腦,各不相干。第二種叫"共享策略"訓練,整個團隊共用同一個"大腦",不管是生成者、評估者還是匯總者,所有人的經驗都會更新這同一個共享大腦。
為了讓對比更有意義,研究團隊還為每個實驗配備了兩個參照基準:一個是完全沒有訓練過的基礎模型,另一個是只有單個AI(而非團隊)在同樣條件下訓練的結果。有了這兩個參照,研究者就能判斷:多智能體團隊訓練帶來的提升,到底有多少是因為"團隊協作"本身,又有多少其實只是"AI訓練本身"就能帶來的普通效果。
整個實驗矩陣橫跨三種模型規模(參數量分別為0.6B、1.7B和4B,可以粗略理解為小號、中號和大號的AI)、兩種任務(數學推理和代碼生成),再乘以三種工作流和兩種訓練策略,構成了一個相當龐大的測試體系。訓練方法採用的是業內流行的GRPO算法——一種根據最終答案對錯來給整個團隊評分並反向優化每個角色的方法,不需要對每一步中間過程單獨評分。
二、多智能體團隊訓練究竟有沒有用?
拿到這麼大的實驗結果,第一個要回答的問題很直接:多個AI組成團隊一起訓練,和不訓練相比,到底有沒有進步?
答案是:大多數情況下有用,而且效果明顯。在研究覆蓋的絕大多數實驗格子裡,團隊訓練後的準確率都高於沒有經過任何訓練的基礎模型。以數學任務為例,基礎模型在1.7B規模下的準確率大約在28%到32%之間,而經過團隊訓練後,各種工作流的準確率能攀升到50%到60%,提升幅度相當可觀。代碼任務同樣如此,從不足15%的基礎水平提升到20%以上。
不過,這裡有一個關鍵的細節:很多時候,把多智能體團隊訓練的成績和"單個AI單獨訓練"的成績對比,多智能體的優勢就縮小甚至消失了。研究者用"殘差"這個概念來衡量這一點——也就是多智能體訓練的準確率減去單個AI訓練的準確率。從研究的數據表格來看,獨立策略訓練在"評估-優化"工作流上相對於單個AI訓練的優勢最為穩定,在1.7B規模的數學任務上能額外多出10.1個百分點;而"投票"工作流在共享策略訓練下,有時甚至不如單個AI訓練,出現負的殘差值,比如在4B規模的數學任務上,共享策略的投票工作流比單個AI訓練低了整整10.3個百分點。
這意味著,當我們說"多智能體訓練有效果"時,必須追問:是相比什麼而言有效?相比沒有任何訓練的基礎模型,答案幾乎總是肯定的。但相比單個AI認真訓練一番,多智能體的額外價值就因情況而異,有時有,有時反而是負的。
三、獨立策略與共享策略:高天花板與低地板的取捨
如果從上千個實驗數據格子裡抽取出一個最核心的對比模式,那就是:獨立策略訓練的AI團隊峰值更高,但也更容易崩潰;共享策略訓練的AI團隊峰值更保守,但同樣存在悄悄"跑偏"的問題。
從"誰能達到更高的準確率"這個維度看,獨立策略幾乎在所有的工作流和任務組合里都占優勢。研究者畫了一張散點圖,橫軸是共享策略的準確率,縱軸是獨立策略的準確率,圖中大多數的點都位於對角線的上方,代表獨立策略表現更好。這背後的邏輯其實不難理解:每個角色有自己專屬的"大腦",訓練時可以專心致志地向自己的方向優化,不用擔心自己的學習經驗被其他角色的經驗稀釋或覆蓋。
然而,獨立策略訓練存在一個嚴重的隱患:訓練到後期,準確率可能突然急劇下滑,像是從懸崖上掉落一樣。研究者把這種現象稱為"終端準確率懸崖"。在1.7B規模的數學任務上,三種工作流的獨立策略訓練都呈現出同一個規律:準確率先快速爬升,超過共享策略,然後在某個時刻開始急速下墜,最終跌回到甚至低於共享策略的水平。比如投票工作流的獨立策略訓練,準確率曲線在中期達到峰值約50.9%,隨後便一路滑落。
共享策略訓練則不同,它更像是"穩健但不出彩"的選手:爬升速度相對較慢,峰值也較低,但達到峰值後能保持一段時間的平穩。然而,研究的後續分析揭示,這種"平穩"其實是一種假象——共享策略訓練同樣會出問題,只不過問題藏得更深,普通的訓練監控指標看不出來。
為了度量兩種訓練策略在訓練過程中的"不穩定程度",研究團隊追蹤了三個技術性指標:策略比率(可以理解為AI的輸出和初始狀態相差多遠,偏差越大說明訓練越激進)、梯度範數(訓練信號的強度,類似於學習時用力的大小)以及熵崩塌深度(AI的"詞彙多樣性"下降了多少,類似於一個本來會說很多種話的人突然只會說幾句固定短語了)。數據顯示,獨立策略訓練在前兩個指標上都系統性地高於共享策略訓練,尤其是梯度範數,獨立策略幾乎在所有實驗組合里都更高。這在一定程度上解釋了為什麼獨立策略更容易出現劇烈的訓練崩潰。
四、工作流結構和任務類型才是真正的關鍵變量
如果把整個實驗矩陣像一張地圖一樣攤開來看,會發現一個更深層的規律:訓練成敗不能僅僅歸因於"用了獨立策略還是共享策略",不同的工作流結構和不同的任務類型,才是影響結果的更根本因素。
以數學任務為例,"評估-優化"工作流在獨立策略下的表現在三種工作流里一直是最亮眼的,0.6B、1.7B和4B三個規模都能超越單個AI訓練。"編排者-工作者"工作流緊隨其後,同樣表現穩健。而"投票"工作流在獨立策略下的表現相對更不穩定,在某些規模下甚至低於單個AI基準。
切換到代碼任務,格局就變了。整體上,代碼任務的提升幅度普遍低於數學任務,各工作流之間的差距也不那麼懸殊。更值得注意的是,同一個訓練策略在數學任務上管用,在代碼任務上未必管用——比如共享策略的"評估-優化"工作流在代碼任務上的1.7B規模表現,比單個AI訓練差了0.4個百分點,而在數學任務的同等規模上則高出0.6個百分點。
這就像同一套管理制度在銷售團隊和研發團隊裡效果不同——工作性質本身就決定了哪種協作方式更有效。數學任務有清晰的對錯標準,答案要麼對要麼錯,訓練信號非常明確;代碼任務雖然也有測試用例來判斷對錯,但解題路徑的多樣性更高,任務本身也更複雜。這種任務特性的差異,會通過獎勵信號傳導到每個角色的訓練過程中,造成不同的結果。
五、共享策略的"安靜崩潰":藏在準確率背後的角色漂移
共享策略訓練不是沒有問題,而是問題更難被察覺。研究團隊發現了一種他們稱之為"共享策略角色捕獲"的現象——通俗來說,就是團隊裡戲份最重或者"嗓門最大"的角色,會逐漸把整個團隊共用的那個"大腦"拉向自己的行為方式,導致其他角色開始產出不符合自己本職工作的內容。
這種現象在研究中出現了幾種不同的形態。第一種形態出現在代碼任務的"評估-優化"工作流的0.6B模型上。在這個組合里,生成者的任務是產出代碼,評估者的任務是用自然語言判斷答案對不對並給出"正確/錯誤"的結論。然而訓練到後期,評估者角色開始直接輸出Python代碼塊,而不是應有的判斷意見。到了訓練的第390步,幾乎99%的評估者輸出都變成了Python代碼,完全失去了"評估"的功能。這就好比你雇了一個代碼審查員,結果他越干越偏,最後自己開始寫代碼了,連審查工作都不做了。
第二種形態出現在數學任務的"評估-優化"工作流的1.7B模型上。這次評估者不是變成了代碼生成機器,而是變成了另一種形式的解題機器——本來應該給出簡短判斷意見的評估者,開始產出越來越長的重新推導過程,把整道題從頭到尾再算一遍,儼然成為了第二個生成者。訓練到第320步時,評估者的輸出中位數長度從最初的131個詞暴漲到986個詞,而生成者本身的答案質量也在下滑(從能找到正確答案的82%下降到57.9%)。兩個角色都在向同一個方向漂移,共用的"大腦"已經不知道自己應該做什麼了。
第三種形態出現在數學任務的"投票"工作流的4B模型上,屬於最隱蔽的一種。這裡的三個投票者和一個匯總者共用一個大腦。正常情況下,三個投票者各自解題,匯總者只需要選出最好的那個答案,輸出一個簡短的選擇結論。但訓練到後期,匯總者的角色開始發生變化:它不再輸出短短幾個詞的選擇結論,而是開始產出越來越長的推導過程,越來越像投票者的風格。有意思的是,從訓練監控指標來看,這個時候整體的"不穩定信號"並不明顯,三個投票者的各項指標都很平穩——問題完全藏在匯總者的輸出行為變化里,只有當你去仔細檢查匯總者到底在說什麼時才會發現。這意味著,如果只盯著總體準確率或者全局訓練統計數據,完全可能錯過這種角色漂移。
六、為什麼獨立策略會導致訓練崩潰?梯度放大效應
理解了現象之後,研究團隊進一步追問:為什麼獨立策略訓練更容易導致準確率的急劇崩潰?背後的機制是什麼?
核心原因在於研究者稱之為"梯度放大"的機制。在"投票"工作流里,有三個獨立的投票者,它們共用同一個"投票者角色的大腦"(但和其他角色是獨立的)。每次訓練時,這三個投票者都在處理同一道題,接受同一個結果獎勵,因此它們傳回來的訓練信號方向是高度一致的。一次訓練疊代里,這個投票者的大腦實際上接收到了三份指向同一方向的"更新請求",等效於單個AI訓練時三倍的強度。
用一個生活化的比喻來理解:假設你在健身,每天做一組引體向上,久而久之會逐漸變強。但如果突然改成每天做三組引體向上,而且每組之間沒有足夠的恢復時間,肌肉反而會過度疲勞,甚至拉傷。梯度放大對AI訓練的效果類似:訓練信號太強、更新太猛,反而讓模型偏離正軌、越來越差。
從實驗數據上可以非常清晰地看到這個效應。在投票工作流的1.7B數學任務中,投票者角色的策略偏離程度(χ?比率)從訓練開始到結束放大了將近30倍,而匯總者角色則幾乎紋絲未動,比率僅為1.18。訓練困難、準確率崩潰的元兇,完全集中在那個被三份相同方向的訓練信號不斷轟炸的投票者角色上。"編排者-工作者"工作流里,同樣的邏輯讓三個工作者角色承受了類似的壓力,其策略偏離程度放大到了21倍,而編排者和綜合者則相對平穩。
七、為什麼共享策略會導致角色漂移?梯度不對稱效應
共享策略訓練的問題則來自另一個方向。研究者把這個機制稱為"共享策略角色捕獲"。
當團隊中不同角色共用同一個大腦時,每個角色在每一輪訓練里對這個大腦貢獻的"更新量"是不同的。有些角色產出的文本很長、很有特色,自然就貢獻了更大份額的訓練信號;有些角色只需要輸出幾個詞的簡短結論,貢獻的信號就很微弱。結果就是,信號更強的角色會逐漸"主導"共享大腦的更新方向,讓大腦越來越向那個角色的行為模式靠攏。而其他角色的輸出,也會在這個逐漸偏向的大腦指導下,越來越像主導角色的樣子。
在"投票"工作流里,三個投票者加起來每輪訓練貢獻的是三個長篇解題過程的更新量,而匯總者只貢獻一個簡短結論的更新量。長此以往,共享大腦被"投票者模式"占據,匯總者的輸出也開始變長、變成推導過程的樣子——不是因為匯總者本身出了問題,而是它們用的那個大腦已經被投票者的風格給"染色"了。
在"編排者-工作者"工作流里,三個工作者對應三個任務槽,編排者和綜合者各占一個槽,工作者天然在每輪訓練中占據三分之三的信號份額。隨著訓練推進,共享大腦越來越向工作者的行為模式漂移,綜合者的輸出長度從中位數369詞急劇縮減到19詞(因為大腦已經不擅長產出綜合性的長文本了),p95分位數卻暴漲到5120詞——出現了極端的兩極分化,有時極短,有時又極長,完全失去了穩定輸出綜合性結論的能力。
這與"梯度放大"機制的根本區別在於:梯度放大是因為太多相同方向的信號推著同一個角色跑偏;而角色捕獲是因為不同角色之間信號強弱不均,強的角色慢慢"蠶食"了弱角色的參數空間。兩種機制都會導致角色功能的退化,但出現的場合不同,對應的工作流和訓練策略也不同。
八、從實驗結論到實踐建議
研究團隊在理清這些機制後,進一步提煉出了一套實踐建議,告訴AI系統的開發者在設計多智能體訓練時該如何規避這些陷阱。
在選擇訓練策略時,核心原則是"因工作流制宜,而非一刀切"。獨立策略訓練適合那些角色分工本身就有價值、而且同類角色的數量不多(或者不怕那個多人角色後期崩潰)的情況。當工作流里存在多個相同角色同時處理同一個問題時,要格外謹慎,因為這正是梯度放大效應的溫床。共享策略訓練適合那些不同角色之間允許一定程度的"混同",或者想在初期降低訓練風險的情況——但必須接受它有自己的漂移風險,而且這種風險更難被普通監控指標發現。
監控方面,研究者明確指出:只看總體準確率是遠遠不夠的。需要追蹤每個角色各自的訓練指標,尤其是困惑度(可以理解為模型對自己輸出的"自信程度")、輸出長度分布和輸出內容的風格特徵。在獨立策略訓練中,如果某一個角色的困惑度突然大幅上升而總體準確率還沒有明顯下滑,這往往是梯度放大效應早期的預警信號,需要提前干預。在共享策略的投票工作流中,要專門監控匯總者的輸出是不是越來越長、越來越像投票者的風格——因為這種角色漂移完全可以在總體準確率沒有明顯異常的情況下悄悄發生。
研究者的結論是發人深省的:選擇共享策略還是獨立策略,不是在"穩定"和"高效"之間選一個,而是在兩種不同的失敗模式之間做一個權衡。沒有哪種策略是一勞永逸的"安全選項",每種策略都把訓練壓力導向不同的通道,呈現出不同形式的風險。理解這些風險的來源——工作流結構、任務特性、角色分工——才是做出正確設計選擇的基礎。
說到底,這項研究告訴我們的,不是"多智能體AI團隊不值得做",而是"做之前要把地圖看清楚"。AI團隊協作訓練就像真實的團隊管理一樣,沒有放之四海而皆準的最優解。三個人一起刷數學題,不見得就比一個人認真學更有效——關鍵在於三個人是怎麼分工的、用什麼方式反饋和總結經驗、哪個人承擔了最多的"練習量"。AI團隊訓練面臨的本質問題,和人類團隊管理出奇地相似。
對於想深入了解這項研究的讀者,可以通過arXiv編號2605.24202獲取完整原文,研究團隊也在GitHub上開放了代碼庫(XHMY/marl-llm-workflows),所有實驗可以復現驗證。
Q&A
Q1:多智能體LLM工作流的獨立策略訓練為什麼會出現準確率崩潰?
A:獨立策略訓練中,"投票"或"編排者-工作者"等工作流包含多個相同角色(比如三個投票者),這些角色共用一個角色專屬參數,每輪訓練時三份指向同一方向的信號同時更新這組參數,等於以三倍強度推動角色偏移,最終導致模型越來越偏離正常狀態,準確率急劇下跌,這就是論文中所說的梯度放大效應。
Q2:共享策略訓練為什麼不能根本上解決多智能體訓練的不穩定問題?
A:共享策略讓所有角色共用一套參數,但不同角色每輪產出的文本長度和特徵差異很大,貢獻的訓練信號量也不均等。產出越多越有特色的角色會逐漸"主導"共用參數的更新方向,導致其他角色的輸出也被拉向主導角色的風格,這種角色漂移往往不會在總體準確率或全局訓練指標上留下明顯痕跡,只有逐角色檢查輸出內容才能發現。
Q3:如何判斷多智能體RL訓練時應該選獨立策略還是共享策略?
A:沒有普遍適用的最優選擇。如果工作流中相同角色的數量不多、且角色分工明確有價值,可以優先考慮獨立策略,但需要密切監控同類角色的困惑度是否異常升高。如果工作流中存在多個相同角色同時處理同一任務,共享策略可以緩解梯度放大風險,但必須額外追蹤每個角色的輸出長度和風格是否出現漂移,尤其是匯總類角色。






