AI智能體也會「甩鍋」？新加坡國立大學聯合團隊揭示一個被忽視的認知偏見

這項由新加坡國立大學、四川大學、明尼蘇達大學雙城分校、哈爾濱工業大學（深圳）以及牛津大學聯合開展的研究，以預印本形式於2026年4月發布在arXiv平台，論文編號為arXiv:2504.19548v1，研究方向屬於電腦科學與自然語言處理領域。感興趣的讀者可以通過該編號在arXiv上查閱完整原文。

贊助商廣告

你有沒有遇到過這樣的情形：和同事一起搞砸了一個項目，你覺得是對方給的需求不清楚，而對方卻堅持認為是你執行出了問題，兩個人各執一詞，最終什麼都沒改進，錯誤還在繼續。這種"各打五十大板，但都不認為自己那板該打"的現象，在人類職場裡太常見了。而這項研究要告訴你的是：當AI智能體彼此協作時，同樣的毛病也出現了。

近年來，以大型語言模型（大語言模型，可以簡單理解為ChatGPT這類能對話的AI）為核心的智能體系統發展迅猛。為了讓AI更像"專業人士"，研究者們會給不同的AI分配不同的角色——比如一個專門負責執行任務的"執行者"，以及一個負責審查結果的"審閱者"。這種分工讓AI系統更有效率，也更專業化。

然而，這個團隊發現了一個讓人啼笑皆非的問題：當任務失敗時，扮演"執行者"的AI傾向於把責任推給外部環境，而扮演"審閱者"的AI則傾向於把同樣的失敗歸咎於執行者的內部失誤。兩個AI看到的是完全相同的情況，卻得出了截然相反的結論，這與人類社會心理學中一個被研究了幾十年的現象高度吻合——行動者-觀察者不對稱效應（Actor-Observer Asymmetry，以下簡稱AOA）。

更麻煩的是，這兩種截然相反的診斷會導致AI系統陷入"內耗"，誰也說服不了誰，修複方案也無從落地。為了解決這個問題，這個團隊提出了一套名為ReTAS的方法，其核心思路借鑑了一種有著兩百多年歷史的哲學辯證法：先提出一方觀點，再提出對立觀點，最後把兩者整合成更客觀的結論。

這聽起來像是在給AI上哲學課，但實驗數據表明，這套方法確實有效。一個僅有40億參數的小模型，在歸因準確率上超越了參數量是它八倍的大模型。這對於AI智能體系統的可靠性研究，是一個值得關注的進展。

贊助商廣告

---

一、當AI學會"甩鍋"：角色扮演的意外副作用

一切要從"角色扮演"這個設計說起。

在現代AI系統里，讓不同的智能體扮演不同角色是一種非常流行的做法。就像一個公司里有不同的崗位，有人專門寫代碼，有人專門測試代碼，有人專門審查代碼。這種分工讓AI系統能夠完成更複雜的任務，因為每個角色都積累了對應領域的專業"習慣"。

但是，研究團隊注意到一個奇怪的現象。以代碼生成場景為例：當一段代碼運行時出現了"超時錯誤"（就是程序跑得太慢，超過了規定的等待時間），執行者角色的AI會說"這是伺服器的問題，不是我代碼的問題"，而審閱者角色的AI看了同樣的代碼和同樣的錯誤，卻會說"這明顯是代碼邏輯寫錯了"。

兩個AI，同一份證據，兩種對立的結論。這就是AOA在AI系統里的具體表現。

AOA這個概念本身來自社會心理學，最早由心理學家弗里茨·海德在1958年提出，後來由瓊斯和尼斯貝特在1972年進一步明確：當你是某件事的"行動者"時，你傾向於把失敗歸因於外部環境（交通塞車害我遲到）；但當你站在旁觀者角度看別人做同樣的事情失敗時，你會傾向于歸因於對方的內部特質（他就是太懶了所以遲到）。這是人類認知的一種系統性偏差。

研究團隊發現，由於大語言模型是用海量人類寫作的文本訓練出來的，它在學語言的同時，也不可避免地學到了人類的這些認知習慣，包括這種偏見。而當AI被明確賦予某個角色時，這種偏見會被進一步放大——角色變成了一種"認知錨點"，讓AI的判斷從一開始就偏向某個方向。

這對多智能體系統來說是個嚴重的問題。當執行者和審閱者對同一個失敗給出對立的診斷時，協作就陷入了僵局，修復措施也無從實施。這就是這項研究想要解決的核心矛盾。

---

二、用數據揭露"甩鍋"有多普遍：模糊失敗基準測試登場

光說AI會甩鍋還不夠，研究團隊需要拿出數據來證明這一點，並且說清楚這種現象到底有多普遍。為此，他們專門設計了一個叫做"模糊失敗基準測試"（Ambiguous Failure Benchmark，AFB）的數據集。

贊助商廣告

這個數據集的設計有個關鍵特點：測試里的每一個失敗案例，故意設計成沒有絕對正確答案。換句話說，每個失敗場景都存在兩種合理的解釋——可能是外部因素導致的，也可能是內部因素導致的，兩種解釋都有道理。這樣一來，如果AI對同一個場景給出不同的判斷，唯一的解釋就是它的"角色"在影響它的判斷，而不是因為證據本身指向了不同方向。

這個測試集橫跨了十個不同領域，涵蓋了代碼編寫、客戶服務、檢索問答系統、安全對齊、規劃任務、創意寫作、數據分析、翻譯、數學邏輯以及專業溝通。每個領域都設計了一個內部因素（比如代碼邏輯錯誤）和外部因素（比如需求描述模糊）之間的典型衝突場景。

整個測試集共包含200個交互記錄，其中100個是"人類-智能體"場景，模擬人類用戶和AI助手之間的失敗；另外100個是"智能體-智能體"場景，模擬一個規劃者AI和一個執行者AI之間的協作失敗。

測試方法也很直接：對每一個失敗案例，研究者分別用"執行者"身份和"審閱者"身份兩套系統提示語去問同一個AI，讓它判斷這次失敗是內部原因還是外部原因。如果同一個AI換了個角色就換了個答案，那就說明AOA存在。

數據結果頗能說明問題。在"人類-智能體"場景中，Qwen3-4B這個模型的"標準AOA"（執行者推卸責任、審閱者歸咎內部）發生率高達29%，DeepSeek-V3.2在"智能體-智能體"場景中的標準AOA發生率更是達到了31%。即使是最強的GPT-5.1模型，在"智能體-智能體"場景下也有23%的標準AOA發生率，說明這個問題並不會隨著模型變強就自動消失。

綜合標準AOA和反向AOA（審閱者反而推卸責任、執行者反而歸咎自己）來看，一個叫"視角翻轉率"（Flip）的指標顯示，大多數模型在單純換個角色之後，就有超過20%的案例會改變判斷。也就是說，每五個失敗案例里，就有至少一個的診斷結論會因為問的是"執行者視角還是審閱者視角"而發生變化，這與問題本身的實際證據無關。

贊助商廣告

研究團隊還發現了另一個有趣的現象：對於更強大的模型，比如GPT-5.1，不管是扮演執行者還是審閱者，它都傾向於把失敗歸咎於AI智能體本身，而不是人類用戶。在"人類-智能體"場景下，GPT-5.1的內部歸因率高達94%。這種"反向偏見"同樣值得深思——它並非客觀判斷，而是另一種系統性傾斜，只是方向不同罷了。

---

三、為什麼簡單的"叫它客觀一點"根本沒用

確認了問題存在之後，最直覺的應對方式是：直接在提示語裡告訴AI"你要保持客觀"，或者"你要站在對方角度想一想"。研究團隊測試了這些簡單幹預，結果證明效果相當有限。

叫AI"保持客觀"，AI會給出一堆聽起來很中立的措辭，但實際判斷仍然受到角色的影響——它只是用更漂亮的語言包裝了原本的偏見而已，就像一個人你讓他客觀評價自己的失誤，他會說"當然我有地方沒做好，但主要還是環境問題……"。

強制讓AI站在對立角度考慮，則會引發另一種問題：過度修正。AI會從一個極端走向另一個極端，原本說"外部原因"的，被逼著反駁之後變成堅定地說"內部原因"，這仍然不是基於證據的理性判斷，只是從一種偏見跳到了另一種偏見。

這兩種干預的本質問題在於：它們都只在"症狀層面"做文章，而沒有解決根本原因——角色本身作為一種認知錨點，從一開始就把AI的推理拉偏了。要真正修正這個偏差，需要一種更根本性的方法，讓AI能夠在內部同時處理兩種對立的視角，並從中得出一個不依賴角色的結論。

這正是研究團隊轉向哲學尋找靈感的原因。

---

四、向兩百年前的哲學借工具：辯證三段式登場

菲希特，一位18到19世紀之交的德國哲學家，提出了一種被稱為"正題-反題-合題"（Thesis-Antithesis-Synthesis）的辯證思維結構。簡單說，就是先提出一個觀點（正題），再提出與之對立的觀點（反題），最後把兩者的合理成分整合成一個更高層次的新觀點（合題）。

贊助商廣告

這套框架被研究團隊發現是對抗AOA的絕佳工具。研究者們將其改造成了一種具體的推理流程，命名為TAS推理框架，並在此基礎上訓練出了最終的ReTAS模型。

具體來說，TAS推理分三步進行。

第一步是"正題"階段。AI首先生成一個符合自己角色立場的初始判斷——如果是執行者，就先表達那種防禦性的、傾向于歸咎外部的反應；如果是審閱者，就先表達那種批評性的、傾向于歸咎內部的反應。這一步不是讓AI說出"正確答案"，而是讓它把自己的"本能反應"先明確說出來，相當於把潛藏的偏見顯式化。

第二步是"反題"階段。AI被要求模擬對立角色的視角，提出與第一步截然相反的解釋，並檢驗這種解釋是否有證據支撐。這一步相當於一個內部"魔鬼代言人"——不管AI角色是什麼，都要求它認真考慮另一方的合理性。

第三步是"合題"階段。AI綜合前兩步的觀點，基於實際證據（而非角色立場）得出一個最終判斷，並決定下一步的修正動作——是去補充缺失的證據（Search），還是修改推理邏輯（Revise），還是確認當前答案沒有問題（Confirm）。

這套流程的關鍵在於：它把角色視角當作起點而非終點。角色帶來的偏見不是被壓制的，而是被明確展示出來，然後在辯證過程中被主動檢驗和修正。

與此前流行的"思維鏈"（Chain-of-Thought）方法相比，TAS有一個重要的不同：思維鏈只記錄"正確推理路徑"，而TAS還記錄了最初可能錯誤的直覺反應以及糾正它的過程。這讓模型不僅學會了正確答案，也學會了如何從錯誤的直覺出發，一步步走向客觀判斷。

---

五、從哲學到可運行的AI：三步煉成ReTAS

有了TAS推理框架，研究團隊接下來需要把它變成一個能實際運行的AI模型，而不僅僅是一個提示語模板。整個訓練過程分為三個階段。

第一個階段是數據準備。研究團隊基於兩個現有數據集構建了訓練數據：一個是FinQA，涉及金融報告的混合數值推理任務；另一個是Spider，涉及將自然語言轉換成SQL資料庫查詢語言的任務。選擇這兩個任務的原因是：每個失敗案例都有明確可驗證的歸因——如果檢索到的證據本身就不包含必要資訊，那就是外部原因（FalseExt）；如果證據夠用但推理出了錯，那就是內部原因（FalseInt）；如果證據夠用且答案正確，那就是成功（True）。這樣的任務設計提供了客觀的"標準答案"，讓模型訓練有了可靠的參照。

贊助商廣告

第二個階段是軌跡生成。研究團隊使用GPT-5.1這個強大的模型，針對每個訓練案例生成了兩條TAS推理軌跡：一條從"防禦性執行者"角度出發，一條從"批評性審閱者"角度出發。兩條軌跡的起始判斷可以不同，但最終的合題結論必須收斂到同一個正確歸因。這樣的數據設計保證了模型學到的是：不管從哪個角色出發，最終都應該走向同一個基於證據的客觀結論。

第三個階段是模型訓練，分兩步進行。首先進行監督微調，讓模型學會TAS的格式和詞彙，就像先教它"寫作文的格式"。然後使用一種叫做"組相對策略優化"（GRPO）的強化學習方法進行進一步對齊。這個方法的工作方式是：模型每次面對一個輸入，會同時生成一批不同的輸出，然後通過一套評分機制評估哪些輸出更好，並逐漸向更好的輸出方向靠攏。

評分機制由三部分組成，分別對應三種獎勵。第一種獎勵檢查輸出是否符合TAS格式；第二種獎勵檢查歸因標籤是否與正確答案一致；第三種獎勵檢查最終給出的答案是否正確。三種獎勵的權重分別被設置為1、2、4——答案正確性被賦予最高權重，歸因準確性次之，格式正確性最低。這個權重比例反映了研究團隊的優先級：讓AI真正解決問題才是最終目標，正確歸因是手段，格式規範是基礎。

訓練在兩張NVIDIA H200顯卡上進行，監督微調階段每輪約15分鐘，強化學習階段共運行了750步優化，約耗時9小時。最終的ReTAS模型基於Qwen3-4B這個40億參數的基礎模型構建。

---

六、比自己大八倍的對手，ReTAS是怎麼贏的

實驗結果是這項研究最令人意外的部分。

在FinQA-TAS測試集上，ReTAS的歸因準確率達到71.2%，視角翻轉率僅12.4%，標準AOA僅5.4%，最終答案F1分數（一種綜合衡量精確率和召回率的指標，滿分為100）達到72.1。在Spider-TAS測試集上，ReTAS的歸因準確率為61.4%，視角翻轉率21.9%，標準AOA 10.2%，F1分數63.5。

贊助商廣告

與基線方法相比，這個成績相當突出。參數量是ReTAS八倍的QwQ-32B，在FinQA-TAS上的歸因準確率只有54.9%，視角翻轉率高達18.1%；參數量是ReTAS七點五倍的Qwen3-30B-A3B在FinQA-TAS上準確率為52.9%，翻轉率20.1%。最值得注意的是GLM-4.6，它在引入"雙視角"反思之後，各項指標反而比單視角更差——這印證了研究團隊此前的判斷：簡單地引入對立角色而沒有整合機制，不僅無法解決AOA，還可能讓情況更糟。

消融實驗（一種通過逐個去掉某個組件來測試其貢獻的分析方法）進一步揭示了各個設計選擇的作用。去掉歸因獎勵之後，FinQA-TAS上的標準AOA從5.4%急劇上升到16.8%，說明單純依靠答案正確性無法讓模型擺脫角色偏見。去掉答案正確性獎勵，F1分數從72.1下降到68.3。去掉整個強化學習階段而只保留監督微調，歸因準確率從71.2降到67.7，說明強化學習對於讓TAS結構真正內化為推理習慣是不可缺少的。

---

七、證據多還是證據少，ReTAS如何應對

研究團隊還專門測試了不同證據複雜度下各方法的表現，這個分析揭示了一些特別實用的規律。

在只需要一到兩條證據就能推理出答案的簡單場景中，TAS方法（包括ReTAS和QwQ-32B+TAS）都顯著優於雙視角反思方法。這說明在資訊比較簡潔的時候，辯證推理能有效防止模型因為角色偏見而誤判簡單情況。

在需要三條或四條以上證據才能推理的複雜場景中，直接使用零樣本方式的QwQ-32B性能急劇下降，可能是因為處理大量資訊時，模型更容易依賴角色本能而非仔細分析證據。相比之下，ReTAS在複雜場景下保持了相當強的穩定性，甚至在四條以上證據的高難度條件下仍然優於32B的大模型。

另外，把ReTAS（只有監督微調版本）和完整的ReTAS（包含強化學習）相比較，可以看到在證據越複雜時，兩者的差距越大——強化學習幫助模型在處理複雜證據鏈時更加穩定和可靠，這種優勢在簡單場景下不那麼明顯，但在真實應用中往往面臨的恰恰是複雜場景。

贊助商廣告

---

八、走出訓練領域：泛化能力的測驗

訓練數據集是FinQA和Spider，但研究團隊想知道ReTAS學到的是一種真正通用的推理能力，還是只是對特定數據集的記憶。因此他們把在FinQA上訓練的ReTAS模型拿到完全沒見過的AFB數據集上進行測試。

在"智能體-智能體"模糊場景測試中，ReTAS成功降低了角色偏見，使得不同角色下的歸因結論更加一致，其表現能與頂級大模型的零樣本一致性水平相媲美。而加了TAS提示的Qwen3-4B雖然也有改善，但效果不如完整訓練的ReTAS，說明訓練確實帶來了提示語本身無法提供的能力提升。

在"人類-智能體"模糊場景測試中，基礎模型們普遍呈現出一種"偏袒用戶"的傾向——不管角色如何，都傾向於把失敗歸咎於AI智能體而非人類用戶。ReTAS在這個場景下實現了最低的內部歸因率，說明它能夠基於證據進行更平衡的責任分配，而不是系統性地偏向某一方。

---

九、談判桌上的辯證法：動態場景的延伸驗證

為了進一步檢驗TAS在動態多輪交互中的價值，研究團隊設計了一個名為"銷售競技場"的仿真實驗。場景設置是：一個4B參數的"賣家"AI（使用Qwen3-4B）要向一個32B參數的"買家"AI（使用QwQ-32B）出售四件商品，賣家的成本是每件50美元，目標售價是65美元或更高，而買家的總預算是260美元，低於55美元就接受報價，55到65美元之間會進行討價還價，超過75美元則拒絕。

這個設置故意讓賣家處於弱勢地位——它只有對方的八分之一參數量。測試的核心問題是：不同的反思機制，能否幫助弱勢賣家在談判中取得更好的結果？

結果頗為有趣。完全沒有反思機制的基準方法總利潤為157美元，平均每件商品利潤1.96美元。單視角自我反思（Reflection_SOLO）將總利潤略微提升到164美元。但雙視角辯論反思（Reflection_Dual）的總利潤卻跌到了135美元，比沒有任何反思機制還要差。TAS辯證反思（Reflection_TAS）則達到了最高總利潤168美元，平均每件商品利潤2.10美元，同時談判輪次也從4.21輪降低到4.81輪，效率是第二好的方法中最高的。

贊助商廣告

雙視角方法表現最差的原因與AOA分析中的預期一致：執行者和審閱者對談判失敗各執一詞，卻沒有任何整合機制，導致賣家在判斷下一步策略時陷入矛盾，反而更加猶豫不決，錯過了成交時機。

觀察談判過程中各輪次的報價曲線，可以看到單視角反思方法呈現出一種逐漸妥協的走勢——隨著談判輪次增加，賣家不斷讓步，報價越來越低，最終大幅壓縮利潤空間。而TAS方法在經歷了第一輪探底之後，表現出了策略調整和維持的能力：在初步了解買家的出價習慣後，賣家重新校準了策略，在後續輪次中維持了相對更堅定的報價立場。

---

歸根結底，這項研究做的事情可以用一句話總結：它發現AI在角色扮演時也會"甩鍋"，然後造了一套內置辯證推理的訓練方法來解決這個問題。

說到底，AOA是人類幾十萬年進化出來的心理機制，寫進了我們組織世界的語言裡，而AI又恰好是從這些語言裡學出來的。所以AI學到人類的偏見，一點都不奇怪。奇怪的是，在發現這個問題之前，大家普遍以為給AI分配角色、增大模型規模就能提升可靠性，而這項研究告訴我們：在歸因這件事上，模型規模越大不代表偏見越小，甚至有時候還會產生新的系統性傾斜，比如高性能模型過度偏袒用戶的現象。

這意味著，要建設真正可靠的多智能體系統，不能只依賴"參數量更大"這一條路，還需要針對認知偏見做專門的對齊訓練。ReTAS的實驗證明，哪怕是一個只有40億參數的小模型，經過正確的訓練之後，在歸因準確性這個維度上也可以超過320億參數的大模型。

當然，這項研究也有自己的邊界。測試主要集中在結構化的檢索推理任務上，對於開放式的創意寫作或長期規劃任務，故障歸因本來就更加主觀，TAS方法在這些場景的效果還需要進一步探索。銷售競技場實驗也只是一個簡化的仿真，真實世界的商業談判要複雜得多。

贊助商廣告

對於感興趣想進一步探究的讀者，一個有趣的思考方向是：如果AOA會影響AI的故障歸因，那麼在法律判決、醫療診斷或教育評估這些對公正性要求極高的場景里，AI系統會不會也存在類似的系統性偏見？以及，對於這些場景，辯證推理訓練能否同樣奏效？原論文可以通過arXiv編號arXiv:2504.19548v1查閱，感興趣的讀者不妨深入了解其中的技術細節。

---

Q&A

Q1：Actor-Observer Asymmetry（行動者-觀察者不對稱效應）在AI里具體是怎麼表現的？

A：當AI扮演"執行者"角色時，遇到任務失敗會傾向於說"是外部條件不好"；同一個AI換成"審閱者"角色，看同樣的失敗卻會說"是執行者自己的問題"。兩種角色看相同證據得出相反結論，這就是AOA在AI里的表現，研究發現大多數模型有超過20%的案例會因為角色切換而改變歸因結論。

Q2：ReTAS的TAS推理框架和普通的思維鏈推理有什麼區別？

A：普通思維鏈只記錄正確推理路徑，相當於只看"正確答案是怎麼得出來的"。TAS則會先讓AI說出自己受角色影響的初始偏見判斷，再強制模擬對立視角，最後把兩種視角整合成基於證據的結論。TAS的關鍵是把角色偏見顯式化再修正，而不是假裝偏見不存在。

Q3：為什麼僅有40億參數的ReTAS模型能在歸因準確率上超過320億參數的大模型？

A：參數量大不等於偏見小。大模型在歸因任務上仍然受角色影響，換個視角就可能換個答案。ReTAS通過專門針對歸因偏見的辯證推理訓練，讓模型學會在內部同時考慮兩種對立視角並整合成客觀結論，這是大模型通過規模增長無法自動獲得的能力。