AI編程智能體協作失敗：兩個模型合作效果不如一個

兩個模型協同工作的表現竟不如單個模型獨立完成，這一發現暴露了人工智慧能力中的關鍵短板。

贊助商廣告

表面上看，這似乎是個簡單的命題：如果AI智能體能夠獨立編寫代碼，那麼兩個模型合作是否應該表現得更好？要實現AI智能體相互協作、並與人類協同工作的美好願景，AI必須成為優秀的協作者。然而現實表明，AI更像是"獨行俠"。斯坦福大學的研究人員近期在一項名為"CooperBench"的新研究中，專門探討了AI的協作能力問題。

"這是一種協調的詛咒，"斯坦福大學博士後學者、該預印本研究的第一作者朱浩表示。這項研究近期在4月舉辦的ICLR研討會上進行了展示。"單個模型的表現優於兩個智能體分工合作的效果。"

"在協作過程中，AI的性能實際上會急劇下降，"該研究的通訊作者、電腦科學助理教授Diyi Yang指出。"當前最優秀的編程智能體在配對協作時，能力損失近一半。這說明，制約AI協作的關鍵瓶頸不是編程技能，而是社交智能。"

協作是人類軟體團隊的核心能力。人類能夠合理分工、溝通進展、以互補的方式開展工作，並對隊友的成果進行驗證。而這些恰恰是AI目前所缺乏的能力。

"儘管模型的語言能力很強，但它們並不將語言用於社交行為，因此也就不具備在協作場景中可靠運作所需的協調能力，"朱浩說，"它們被訓練成不以社交方式使用語言，這是一個問題。"

為此，研究團隊設計了一套包含650多項真實軟體工程任務的測試集，要求兩個智能體使用Python、TypeScript、Go和Rust四種編程語言之一進行協作。這些任務被特別挑選為具有潛在衝突性，正是這種戰略性的重疊區域，讓真正的協作既如此重要，又如此困難。每個智能體都可以編輯代碼、執行本地命令，並且能夠實時向協作方發送消息。

兩個智能體的代碼隨後被合併並接受評估，結果令人失望。研究人員將此稱為"協調差距"，更值得注意的是，這種差距在中等技術難度的任務上最為明顯——而這個"不太難也不太容易"的甜蜜區間，原本被認為是兩個智能體最有機會發揮協作優勢的地方。

贊助商廣告

研究人員原本預期，賦予AI智能體相互通信的能力會提高協作成功率，但結果發現這幾乎沒有任何影響。他們將原因歸結為AI在處理空間協調與語義協調時的混亂——即分不清"在代碼的哪個位置進行修改"和"需要進行什麼修改"這兩個層面的問題。

研究人員能夠實時觀察智能體之間的通信內容。以下是一段真實對話，生動展現了AI所面臨的挑戰：

智能體A："等一下，智能體B！如果你把章節標題和我的guid類型都加到你的分支里，肯定會產生合併衝突！"

智能體B："我會把完整的章節（第72至81行）加入我的分支，其中包括章節標題、你的guid類型，還有我的hash_sha256類型。"

在這段對話中，智能體B無視了智能體A的警告，直接覆蓋了其代碼。它表面上承認了智能體A的顧慮，卻依然我行我素，最終交付了一個不兼容的設計。人類協作者在社會層面上幾乎不可能做出這樣的舉動——無視警告本身就有損信任，而直接覆蓋對方代碼更是一種公然冒犯。

朱浩對這類對話感到意外。他原本以為，只要模型能夠"說英語"，更緊密的協調自然會隨之而來，但結果恰恰相反：智能體流暢的語言表達能力，往往掩蓋了失敗，而非化解了問題。

研究人員還觀察到其他社交層面的失范行為：頻繁發送重複且低價值的狀態更新、對直接提問置之不理，以及未能兌現已承諾的任務。

儘管AI目前的協作能力不盡如人意，但研究人員相信這是一個可以解決的問題。不過，解決之道並非更好的提示詞工程，而是需要對AI進行協作能力的專項訓練——就如同學校布置團隊任務，不僅是為了學習課程內容，更是為了培養成功協作的藝術。這需要一種AI目前尚不具備的社交智能。

研究人員建議，在AI訓練目標中納入對協調行為的獎勵機制，引導AI學習成功的合作模式，而不僅僅是生成高質量的代碼。開發者還可以引入新機制，驗證AI智能體是否真正履行了承諾，並創建類似合同的協議（附帶簽名確認）。此外，還應加強對代碼集成質量的定期檢查，並通過AI螢幕共享等技術手段，優化通信渠道，提升資訊表達的清晰度，確保結果可驗證。

贊助商廣告

"通過CooperBench，我們認識到，AI智能體雖然能像人類一樣說話，但在語言如何在社交語境中發揮作用這一點上，它們還有很長的路要走，"朱浩總結道。

本研究得到斯坦福大學以人為本人工智慧研究院的部分資助。

Q&A

Q1：CooperBench研究發現AI編程智能體協作時存在哪些主要問題？

A：CooperBench研究發現，兩個AI編程智能體協作時性能會急劇下降，能力損失近一半。主要問題包括：無法有效區分"在哪裡修改代碼"和"修改什麼內容"；會忽視協作方的警告並直接覆蓋其代碼；頻繁發送無意義的狀態更新；對直接提問不予回應；以及未能兌現已做出的承諾。研究人員將這種現象稱為"協調差距"。

Q2：為什麼AI智能體的語言溝通能力強，協作效果卻反而更差？

A：斯坦福研究人員發現，AI模型雖然具備流暢的語言表達能力，但這種能力並未轉化為真正的社交協調行為。AI被訓練成不以社交方式使用語言，因此語言流暢性反而掩蓋了協作中的失敗，而非解決問題。簡單來說，AI"會說話"但不"懂社交"，缺乏人類在團隊合作中自然具備的信任維護和衝突規避意識。

Q3：如何改善AI編程智能體的協作能力？

A：研究人員認為，改善AI協作能力的關鍵在於專項訓練，而非優化提示詞。具體建議包括：在訓練目標中納入對協調行為的獎勵機制；引入類似合同的協議機制以確保智能體履行承諾；加強對代碼集成質量的定期檢查；以及通過AI螢幕共享等技術手段強化通信渠道，提升協作透明度和結果可驗證性。