宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

AI編程智能體協作失敗:兩個模型合作效果不如一個

2026年06月03日 首頁 » 熱門科技

兩個模型協同工作的表現竟不如單個模型獨立完成,這一發現暴露了人工智慧能力中的關鍵短板。

表面上看,這似乎是個簡單的命題:如果AI智能體能夠獨立編寫代碼,那麼兩個模型合作是否應該表現得更好?要實現AI智能體相互協作、並與人類協同工作的美好願景,AI必須成為優秀的協作者。然而現實表明,AI更像是"獨行俠"。斯坦福大學的研究人員近期在一項名為"CooperBench"的新研究中,專門探討了AI的協作能力問題。

"這是一種協調的詛咒,"斯坦福大學博士後學者、該預印本研究的第一作者朱浩表示。這項研究近期在4月舉辦的ICLR研討會上進行了展示。"單個模型的表現優於兩個智能體分工合作的效果。"

"在協作過程中,AI的性能實際上會急劇下降,"該研究的通訊作者、電腦科學助理教授Diyi Yang指出。"當前最優秀的編程智能體在配對協作時,能力損失近一半。這說明,制約AI協作的關鍵瓶頸不是編程技能,而是社交智能。"

協作是人類軟體團隊的核心能力。人類能夠合理分工、溝通進展、以互補的方式開展工作,並對隊友的成果進行驗證。而這些恰恰是AI目前所缺乏的能力。

"儘管模型的語言能力很強,但它們並不將語言用於社交行為,因此也就不具備在協作場景中可靠運作所需的協調能力,"朱浩說,"它們被訓練成不以社交方式使用語言,這是一個問題。"

為此,研究團隊設計了一套包含650多項真實軟體工程任務的測試集,要求兩個智能體使用Python、TypeScript、Go和Rust四種編程語言之一進行協作。這些任務被特別挑選為具有潛在衝突性,正是這種戰略性的重疊區域,讓真正的協作既如此重要,又如此困難。每個智能體都可以編輯代碼、執行本地命令,並且能夠實時向協作方發送消息。

兩個智能體的代碼隨後被合併並接受評估,結果令人失望。研究人員將此稱為"協調差距",更值得注意的是,這種差距在中等技術難度的任務上最為明顯——而這個"不太難也不太容易"的甜蜜區間,原本被認為是兩個智能體最有機會發揮協作優勢的地方。

研究人員原本預期,賦予AI智能體相互通信的能力會提高協作成功率,但結果發現這幾乎沒有任何影響。他們將原因歸結為AI在處理空間協調與語義協調時的混亂——即分不清"在代碼的哪個位置進行修改"和"需要進行什麼修改"這兩個層面的問題。

研究人員能夠實時觀察智能體之間的通信內容。以下是一段真實對話,生動展現了AI所面臨的挑戰:

智能體A:"等一下,智能體B!如果你把章節標題和我的guid類型都加到你的分支里,肯定會產生合併衝突!"

智能體B:"我會把完整的章節(第72至81行)加入我的分支,其中包括章節標題、你的guid類型,還有我的hash_sha256類型。"

在這段對話中,智能體B無視了智能體A的警告,直接覆蓋了其代碼。它表面上承認了智能體A的顧慮,卻依然我行我素,最終交付了一個不兼容的設計。人類協作者在社會層面上幾乎不可能做出這樣的舉動——無視警告本身就有損信任,而直接覆蓋對方代碼更是一種公然冒犯。

朱浩對這類對話感到意外。他原本以為,只要模型能夠"說英語",更緊密的協調自然會隨之而來,但結果恰恰相反:智能體流暢的語言表達能力,往往掩蓋了失敗,而非化解了問題。

研究人員還觀察到其他社交層面的失范行為:頻繁發送重複且低價值的狀態更新、對直接提問置之不理,以及未能兌現已承諾的任務。

儘管AI目前的協作能力不盡如人意,但研究人員相信這是一個可以解決的問題。不過,解決之道並非更好的提示詞工程,而是需要對AI進行協作能力的專項訓練——就如同學校布置團隊任務,不僅是為了學習課程內容,更是為了培養成功協作的藝術。這需要一種AI目前尚不具備的社交智能。

研究人員建議,在AI訓練目標中納入對協調行為的獎勵機制,引導AI學習成功的合作模式,而不僅僅是生成高質量的代碼。開發者還可以引入新機制,驗證AI智能體是否真正履行了承諾,並創建類似合同的協議(附帶簽名確認)。此外,還應加強對代碼集成質量的定期檢查,並通過AI螢幕共享等技術手段,優化通信渠道,提升資訊表達的清晰度,確保結果可驗證。

"通過CooperBench,我們認識到,AI智能體雖然能像人類一樣說話,但在語言如何在社交語境中發揮作用這一點上,它們還有很長的路要走,"朱浩總結道。

本研究得到斯坦福大學以人為本人工智慧研究院的部分資助。

Q&A

Q1:CooperBench研究發現AI編程智能體協作時存在哪些主要問題?

A:CooperBench研究發現,兩個AI編程智能體協作時性能會急劇下降,能力損失近一半。主要問題包括:無法有效區分"在哪裡修改代碼"和"修改什麼內容";會忽視協作方的警告並直接覆蓋其代碼;頻繁發送無意義的狀態更新;對直接提問不予回應;以及未能兌現已做出的承諾。研究人員將這種現象稱為"協調差距"。

Q2:為什麼AI智能體的語言溝通能力強,協作效果卻反而更差?

A:斯坦福研究人員發現,AI模型雖然具備流暢的語言表達能力,但這種能力並未轉化為真正的社交協調行為。AI被訓練成不以社交方式使用語言,因此語言流暢性反而掩蓋了協作中的失敗,而非解決問題。簡單來說,AI"會說話"但不"懂社交",缺乏人類在團隊合作中自然具備的信任維護和衝突規避意識。

Q3:如何改善AI編程智能體的協作能力?

A:研究人員認為,改善AI協作能力的關鍵在於專項訓練,而非優化提示詞。具體建議包括:在訓練目標中納入對協調行為的獎勵機制;引入類似合同的協議機制以確保智能體履行承諾;加強對代碼集成質量的定期檢查;以及通過AI螢幕共享等技術手段強化通信渠道,提升協作透明度和結果可驗證性。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新