宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

AI智能體也會「甩鍋」?新加坡國立大學聯合團隊揭示一個被忽視的認知偏見

2026年05月05日 首頁 » 熱門科技

這項由新加坡國立大學、四川大學、明尼蘇達大學雙城分校、哈爾濱工業大學(深圳)以及牛津大學聯合開展的研究,以預印本形式於2026年4月發布在arXiv平台,論文編號為arXiv:2504.19548v1,研究方向屬於電腦科學與自然語言處理領域。感興趣的讀者可以通過該編號在arXiv上查閱完整原文。

你有沒有遇到過這樣的情形:和同事一起搞砸了一個項目,你覺得是對方給的需求不清楚,而對方卻堅持認為是你執行出了問題,兩個人各執一詞,最終什麼都沒改進,錯誤還在繼續。這種"各打五十大板,但都不認為自己那板該打"的現象,在人類職場裡太常見了。而這項研究要告訴你的是:當AI智能體彼此協作時,同樣的毛病也出現了。

近年來,以大型語言模型(大語言模型,可以簡單理解為ChatGPT這類能對話的AI)為核心的智能體系統發展迅猛。為了讓AI更像"專業人士",研究者們會給不同的AI分配不同的角色——比如一個專門負責執行任務的"執行者",以及一個負責審查結果的"審閱者"。這種分工讓AI系統更有效率,也更專業化。

然而,這個團隊發現了一個讓人啼笑皆非的問題:當任務失敗時,扮演"執行者"的AI傾向於把責任推給外部環境,而扮演"審閱者"的AI則傾向於把同樣的失敗歸咎於執行者的內部失誤。兩個AI看到的是完全相同的情況,卻得出了截然相反的結論,這與人類社會心理學中一個被研究了幾十年的現象高度吻合——行動者-觀察者不對稱效應(Actor-Observer Asymmetry,以下簡稱AOA)。

更麻煩的是,這兩種截然相反的診斷會導致AI系統陷入"內耗",誰也說服不了誰,修複方案也無從落地。為了解決這個問題,這個團隊提出了一套名為ReTAS的方法,其核心思路借鑑了一種有著兩百多年歷史的哲學辯證法:先提出一方觀點,再提出對立觀點,最後把兩者整合成更客觀的結論。

這聽起來像是在給AI上哲學課,但實驗數據表明,這套方法確實有效。一個僅有40億參數的小模型,在歸因準確率上超越了參數量是它八倍的大模型。這對於AI智能體系統的可靠性研究,是一個值得關注的進展。

---

一、當AI學會"甩鍋":角色扮演的意外副作用

一切要從"角色扮演"這個設計說起。

在現代AI系統里,讓不同的智能體扮演不同角色是一種非常流行的做法。就像一個公司里有不同的崗位,有人專門寫代碼,有人專門測試代碼,有人專門審查代碼。這種分工讓AI系統能夠完成更複雜的任務,因為每個角色都積累了對應領域的專業"習慣"。

但是,研究團隊注意到一個奇怪的現象。以代碼生成場景為例:當一段代碼運行時出現了"超時錯誤"(就是程序跑得太慢,超過了規定的等待時間),執行者角色的AI會說"這是伺服器的問題,不是我代碼的問題",而審閱者角色的AI看了同樣的代碼和同樣的錯誤,卻會說"這明顯是代碼邏輯寫錯了"。

兩個AI,同一份證據,兩種對立的結論。這就是AOA在AI系統里的具體表現。

AOA這個概念本身來自社會心理學,最早由心理學家弗里茨·海德在1958年提出,後來由瓊斯和尼斯貝特在1972年進一步明確:當你是某件事的"行動者"時,你傾向於把失敗歸因於外部環境(交通塞車害我遲到);但當你站在旁觀者角度看別人做同樣的事情失敗時,你會傾向于歸因於對方的內部特質(他就是太懶了所以遲到)。這是人類認知的一種系統性偏差。

研究團隊發現,由於大語言模型是用海量人類寫作的文本訓練出來的,它在學語言的同時,也不可避免地學到了人類的這些認知習慣,包括這種偏見。而當AI被明確賦予某個角色時,這種偏見會被進一步放大——角色變成了一種"認知錨點",讓AI的判斷從一開始就偏向某個方向。

這對多智能體系統來說是個嚴重的問題。當執行者和審閱者對同一個失敗給出對立的診斷時,協作就陷入了僵局,修復措施也無從實施。這就是這項研究想要解決的核心矛盾。

---

二、用數據揭露"甩鍋"有多普遍:模糊失敗基準測試登場

光說AI會甩鍋還不夠,研究團隊需要拿出數據來證明這一點,並且說清楚這種現象到底有多普遍。為此,他們專門設計了一個叫做"模糊失敗基準測試"(Ambiguous Failure Benchmark,AFB)的數據集。

這個數據集的設計有個關鍵特點:測試里的每一個失敗案例,故意設計成沒有絕對正確答案。換句話說,每個失敗場景都存在兩種合理的解釋——可能是外部因素導致的,也可能是內部因素導致的,兩種解釋都有道理。這樣一來,如果AI對同一個場景給出不同的判斷,唯一的解釋就是它的"角色"在影響它的判斷,而不是因為證據本身指向了不同方向。

這個測試集橫跨了十個不同領域,涵蓋了代碼編寫、客戶服務、檢索問答系統、安全對齊、規劃任務、創意寫作、數據分析、翻譯、數學邏輯以及專業溝通。每個領域都設計了一個內部因素(比如代碼邏輯錯誤)和外部因素(比如需求描述模糊)之間的典型衝突場景。

整個測試集共包含200個交互記錄,其中100個是"人類-智能體"場景,模擬人類用戶和AI助手之間的失敗;另外100個是"智能體-智能體"場景,模擬一個規劃者AI和一個執行者AI之間的協作失敗。

測試方法也很直接:對每一個失敗案例,研究者分別用"執行者"身份和"審閱者"身份兩套系統提示語去問同一個AI,讓它判斷這次失敗是內部原因還是外部原因。如果同一個AI換了個角色就換了個答案,那就說明AOA存在。

數據結果頗能說明問題。在"人類-智能體"場景中,Qwen3-4B這個模型的"標準AOA"(執行者推卸責任、審閱者歸咎內部)發生率高達29%,DeepSeek-V3.2在"智能體-智能體"場景中的標準AOA發生率更是達到了31%。即使是最強的GPT-5.1模型,在"智能體-智能體"場景下也有23%的標準AOA發生率,說明這個問題並不會隨著模型變強就自動消失。

綜合標準AOA和反向AOA(審閱者反而推卸責任、執行者反而歸咎自己)來看,一個叫"視角翻轉率"(Flip)的指標顯示,大多數模型在單純換個角色之後,就有超過20%的案例會改變判斷。也就是說,每五個失敗案例里,就有至少一個的診斷結論會因為問的是"執行者視角還是審閱者視角"而發生變化,這與問題本身的實際證據無關。

研究團隊還發現了另一個有趣的現象:對於更強大的模型,比如GPT-5.1,不管是扮演執行者還是審閱者,它都傾向於把失敗歸咎於AI智能體本身,而不是人類用戶。在"人類-智能體"場景下,GPT-5.1的內部歸因率高達94%。這種"反向偏見"同樣值得深思——它並非客觀判斷,而是另一種系統性傾斜,只是方向不同罷了。

---

三、為什麼簡單的"叫它客觀一點"根本沒用

確認了問題存在之後,最直覺的應對方式是:直接在提示語裡告訴AI"你要保持客觀",或者"你要站在對方角度想一想"。研究團隊測試了這些簡單幹預,結果證明效果相當有限。

叫AI"保持客觀",AI會給出一堆聽起來很中立的措辭,但實際判斷仍然受到角色的影響——它只是用更漂亮的語言包裝了原本的偏見而已,就像一個人你讓他客觀評價自己的失誤,他會說"當然我有地方沒做好,但主要還是環境問題……"。

強制讓AI站在對立角度考慮,則會引發另一種問題:過度修正。AI會從一個極端走向另一個極端,原本說"外部原因"的,被逼著反駁之後變成堅定地說"內部原因",這仍然不是基於證據的理性判斷,只是從一種偏見跳到了另一種偏見。

這兩種干預的本質問題在於:它們都只在"症狀層面"做文章,而沒有解決根本原因——角色本身作為一種認知錨點,從一開始就把AI的推理拉偏了。要真正修正這個偏差,需要一種更根本性的方法,讓AI能夠在內部同時處理兩種對立的視角,並從中得出一個不依賴角色的結論。

這正是研究團隊轉向哲學尋找靈感的原因。

---

四、向兩百年前的哲學借工具:辯證三段式登場

菲希特,一位18到19世紀之交的德國哲學家,提出了一種被稱為"正題-反題-合題"(Thesis-Antithesis-Synthesis)的辯證思維結構。簡單說,就是先提出一個觀點(正題),再提出與之對立的觀點(反題),最後把兩者的合理成分整合成一個更高層次的新觀點(合題)。

這套框架被研究團隊發現是對抗AOA的絕佳工具。研究者們將其改造成了一種具體的推理流程,命名為TAS推理框架,並在此基礎上訓練出了最終的ReTAS模型。

具體來說,TAS推理分三步進行。

第一步是"正題"階段。AI首先生成一個符合自己角色立場的初始判斷——如果是執行者,就先表達那種防禦性的、傾向于歸咎外部的反應;如果是審閱者,就先表達那種批評性的、傾向于歸咎內部的反應。這一步不是讓AI說出"正確答案",而是讓它把自己的"本能反應"先明確說出來,相當於把潛藏的偏見顯式化。

第二步是"反題"階段。AI被要求模擬對立角色的視角,提出與第一步截然相反的解釋,並檢驗這種解釋是否有證據支撐。這一步相當於一個內部"魔鬼代言人"——不管AI角色是什麼,都要求它認真考慮另一方的合理性。

第三步是"合題"階段。AI綜合前兩步的觀點,基於實際證據(而非角色立場)得出一個最終判斷,並決定下一步的修正動作——是去補充缺失的證據(Search),還是修改推理邏輯(Revise),還是確認當前答案沒有問題(Confirm)。

這套流程的關鍵在於:它把角色視角當作起點而非終點。角色帶來的偏見不是被壓制的,而是被明確展示出來,然後在辯證過程中被主動檢驗和修正。

與此前流行的"思維鏈"(Chain-of-Thought)方法相比,TAS有一個重要的不同:思維鏈只記錄"正確推理路徑",而TAS還記錄了最初可能錯誤的直覺反應以及糾正它的過程。這讓模型不僅學會了正確答案,也學會了如何從錯誤的直覺出發,一步步走向客觀判斷。

---

五、從哲學到可運行的AI:三步煉成ReTAS

有了TAS推理框架,研究團隊接下來需要把它變成一個能實際運行的AI模型,而不僅僅是一個提示語模板。整個訓練過程分為三個階段。

第一個階段是數據準備。研究團隊基於兩個現有數據集構建了訓練數據:一個是FinQA,涉及金融報告的混合數值推理任務;另一個是Spider,涉及將自然語言轉換成SQL資料庫查詢語言的任務。選擇這兩個任務的原因是:每個失敗案例都有明確可驗證的歸因——如果檢索到的證據本身就不包含必要資訊,那就是外部原因(FalseExt);如果證據夠用但推理出了錯,那就是內部原因(FalseInt);如果證據夠用且答案正確,那就是成功(True)。這樣的任務設計提供了客觀的"標準答案",讓模型訓練有了可靠的參照。

第二個階段是軌跡生成。研究團隊使用GPT-5.1這個強大的模型,針對每個訓練案例生成了兩條TAS推理軌跡:一條從"防禦性執行者"角度出發,一條從"批評性審閱者"角度出發。兩條軌跡的起始判斷可以不同,但最終的合題結論必須收斂到同一個正確歸因。這樣的數據設計保證了模型學到的是:不管從哪個角色出發,最終都應該走向同一個基於證據的客觀結論。

第三個階段是模型訓練,分兩步進行。首先進行監督微調,讓模型學會TAS的格式和詞彙,就像先教它"寫作文的格式"。然後使用一種叫做"組相對策略優化"(GRPO)的強化學習方法進行進一步對齊。這個方法的工作方式是:模型每次面對一個輸入,會同時生成一批不同的輸出,然後通過一套評分機制評估哪些輸出更好,並逐漸向更好的輸出方向靠攏。

評分機制由三部分組成,分別對應三種獎勵。第一種獎勵檢查輸出是否符合TAS格式;第二種獎勵檢查歸因標籤是否與正確答案一致;第三種獎勵檢查最終給出的答案是否正確。三種獎勵的權重分別被設置為1、2、4——答案正確性被賦予最高權重,歸因準確性次之,格式正確性最低。這個權重比例反映了研究團隊的優先級:讓AI真正解決問題才是最終目標,正確歸因是手段,格式規範是基礎。

訓練在兩張NVIDIA H200顯卡上進行,監督微調階段每輪約15分鐘,強化學習階段共運行了750步優化,約耗時9小時。最終的ReTAS模型基於Qwen3-4B這個40億參數的基礎模型構建。

---

六、比自己大八倍的對手,ReTAS是怎麼贏的

實驗結果是這項研究最令人意外的部分。

在FinQA-TAS測試集上,ReTAS的歸因準確率達到71.2%,視角翻轉率僅12.4%,標準AOA僅5.4%,最終答案F1分數(一種綜合衡量精確率和召回率的指標,滿分為100)達到72.1。在Spider-TAS測試集上,ReTAS的歸因準確率為61.4%,視角翻轉率21.9%,標準AOA 10.2%,F1分數63.5。

與基線方法相比,這個成績相當突出。參數量是ReTAS八倍的QwQ-32B,在FinQA-TAS上的歸因準確率只有54.9%,視角翻轉率高達18.1%;參數量是ReTAS七點五倍的Qwen3-30B-A3B在FinQA-TAS上準確率為52.9%,翻轉率20.1%。最值得注意的是GLM-4.6,它在引入"雙視角"反思之後,各項指標反而比單視角更差——這印證了研究團隊此前的判斷:簡單地引入對立角色而沒有整合機制,不僅無法解決AOA,還可能讓情況更糟。

消融實驗(一種通過逐個去掉某個組件來測試其貢獻的分析方法)進一步揭示了各個設計選擇的作用。去掉歸因獎勵之後,FinQA-TAS上的標準AOA從5.4%急劇上升到16.8%,說明單純依靠答案正確性無法讓模型擺脫角色偏見。去掉答案正確性獎勵,F1分數從72.1下降到68.3。去掉整個強化學習階段而只保留監督微調,歸因準確率從71.2降到67.7,說明強化學習對於讓TAS結構真正內化為推理習慣是不可缺少的。

---

七、證據多還是證據少,ReTAS如何應對

研究團隊還專門測試了不同證據複雜度下各方法的表現,這個分析揭示了一些特別實用的規律。

在只需要一到兩條證據就能推理出答案的簡單場景中,TAS方法(包括ReTAS和QwQ-32B+TAS)都顯著優於雙視角反思方法。這說明在資訊比較簡潔的時候,辯證推理能有效防止模型因為角色偏見而誤判簡單情況。

在需要三條或四條以上證據才能推理的複雜場景中,直接使用零樣本方式的QwQ-32B性能急劇下降,可能是因為處理大量資訊時,模型更容易依賴角色本能而非仔細分析證據。相比之下,ReTAS在複雜場景下保持了相當強的穩定性,甚至在四條以上證據的高難度條件下仍然優於32B的大模型。

另外,把ReTAS(只有監督微調版本)和完整的ReTAS(包含強化學習)相比較,可以看到在證據越複雜時,兩者的差距越大——強化學習幫助模型在處理複雜證據鏈時更加穩定和可靠,這種優勢在簡單場景下不那麼明顯,但在真實應用中往往面臨的恰恰是複雜場景。

---

八、走出訓練領域:泛化能力的測驗

訓練數據集是FinQA和Spider,但研究團隊想知道ReTAS學到的是一種真正通用的推理能力,還是只是對特定數據集的記憶。因此他們把在FinQA上訓練的ReTAS模型拿到完全沒見過的AFB數據集上進行測試。

在"智能體-智能體"模糊場景測試中,ReTAS成功降低了角色偏見,使得不同角色下的歸因結論更加一致,其表現能與頂級大模型的零樣本一致性水平相媲美。而加了TAS提示的Qwen3-4B雖然也有改善,但效果不如完整訓練的ReTAS,說明訓練確實帶來了提示語本身無法提供的能力提升。

在"人類-智能體"模糊場景測試中,基礎模型們普遍呈現出一種"偏袒用戶"的傾向——不管角色如何,都傾向於把失敗歸咎於AI智能體而非人類用戶。ReTAS在這個場景下實現了最低的內部歸因率,說明它能夠基於證據進行更平衡的責任分配,而不是系統性地偏向某一方。

---

九、談判桌上的辯證法:動態場景的延伸驗證

為了進一步檢驗TAS在動態多輪交互中的價值,研究團隊設計了一個名為"銷售競技場"的仿真實驗。場景設置是:一個4B參數的"賣家"AI(使用Qwen3-4B)要向一個32B參數的"買家"AI(使用QwQ-32B)出售四件商品,賣家的成本是每件50美元,目標售價是65美元或更高,而買家的總預算是260美元,低於55美元就接受報價,55到65美元之間會進行討價還價,超過75美元則拒絕。

這個設置故意讓賣家處於弱勢地位——它只有對方的八分之一參數量。測試的核心問題是:不同的反思機制,能否幫助弱勢賣家在談判中取得更好的結果?

結果頗為有趣。完全沒有反思機制的基準方法總利潤為157美元,平均每件商品利潤1.96美元。單視角自我反思(Reflection_SOLO)將總利潤略微提升到164美元。但雙視角辯論反思(Reflection_Dual)的總利潤卻跌到了135美元,比沒有任何反思機制還要差。TAS辯證反思(Reflection_TAS)則達到了最高總利潤168美元,平均每件商品利潤2.10美元,同時談判輪次也從4.21輪降低到4.81輪,效率是第二好的方法中最高的。

雙視角方法表現最差的原因與AOA分析中的預期一致:執行者和審閱者對談判失敗各執一詞,卻沒有任何整合機制,導致賣家在判斷下一步策略時陷入矛盾,反而更加猶豫不決,錯過了成交時機。

觀察談判過程中各輪次的報價曲線,可以看到單視角反思方法呈現出一種逐漸妥協的走勢——隨著談判輪次增加,賣家不斷讓步,報價越來越低,最終大幅壓縮利潤空間。而TAS方法在經歷了第一輪探底之後,表現出了策略調整和維持的能力:在初步了解買家的出價習慣後,賣家重新校準了策略,在後續輪次中維持了相對更堅定的報價立場。

---

歸根結底,這項研究做的事情可以用一句話總結:它發現AI在角色扮演時也會"甩鍋",然後造了一套內置辯證推理的訓練方法來解決這個問題。

說到底,AOA是人類幾十萬年進化出來的心理機制,寫進了我們組織世界的語言裡,而AI又恰好是從這些語言裡學出來的。所以AI學到人類的偏見,一點都不奇怪。奇怪的是,在發現這個問題之前,大家普遍以為給AI分配角色、增大模型規模就能提升可靠性,而這項研究告訴我們:在歸因這件事上,模型規模越大不代表偏見越小,甚至有時候還會產生新的系統性傾斜,比如高性能模型過度偏袒用戶的現象。

這意味著,要建設真正可靠的多智能體系統,不能只依賴"參數量更大"這一條路,還需要針對認知偏見做專門的對齊訓練。ReTAS的實驗證明,哪怕是一個只有40億參數的小模型,經過正確的訓練之後,在歸因準確性這個維度上也可以超過320億參數的大模型。

當然,這項研究也有自己的邊界。測試主要集中在結構化的檢索推理任務上,對於開放式的創意寫作或長期規劃任務,故障歸因本來就更加主觀,TAS方法在這些場景的效果還需要進一步探索。銷售競技場實驗也只是一個簡化的仿真,真實世界的商業談判要複雜得多。

對於感興趣想進一步探究的讀者,一個有趣的思考方向是:如果AOA會影響AI的故障歸因,那麼在法律判決、醫療診斷或教育評估這些對公正性要求極高的場景里,AI系統會不會也存在類似的系統性偏見?以及,對於這些場景,辯證推理訓練能否同樣奏效?原論文可以通過arXiv編號arXiv:2504.19548v1查閱,感興趣的讀者不妨深入了解其中的技術細節。

---

Q&A

Q1:Actor-Observer Asymmetry(行動者-觀察者不對稱效應)在AI里具體是怎麼表現的?

A:當AI扮演"執行者"角色時,遇到任務失敗會傾向於說"是外部條件不好";同一個AI換成"審閱者"角色,看同樣的失敗卻會說"是執行者自己的問題"。兩種角色看相同證據得出相反結論,這就是AOA在AI里的表現,研究發現大多數模型有超過20%的案例會因為角色切換而改變歸因結論。

Q2:ReTAS的TAS推理框架和普通的思維鏈推理有什麼區別?

A:普通思維鏈只記錄正確推理路徑,相當於只看"正確答案是怎麼得出來的"。TAS則會先讓AI說出自己受角色影響的初始偏見判斷,再強制模擬對立視角,最後把兩種視角整合成基於證據的結論。TAS的關鍵是把角色偏見顯式化再修正,而不是假裝偏見不存在。

Q3:為什麼僅有40億參數的ReTAS模型能在歸因準確率上超過320億參數的大模型?

A:參數量大不等於偏見小。大模型在歸因任務上仍然受角色影響,換個視角就可能換個答案。ReTAS通過專門針對歸因偏見的辯證推理訓練,讓模型學會在內部同時考慮兩種對立視角並整合成客觀結論,這是大模型通過規模增長無法自動獲得的能力。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新