這項由清華大學深圳國際研究生院、浙江大學、西北工業大學、中國科學技術大學、上海交通大學等多所機構聯合完成的研究,以預印本形式發布於2026年6月,論文編號為arXiv:2606.24428。感興趣的讀者可以通過該編號在arXiv學術平台上查閱完整原文。
一、一個讓AI越學越錯的隱秘陷阱
有沒有想過,一個學生如果每次考完試都由自己批改自己的試卷,會發生什麼?答案很可能是:他會在不知不覺中把自己的錯誤答案當成正確答案,然後下次繼續錯下去,甚至越來越自信地錯下去。這個聽起來有點荒唐的場景,其實正是當今主流AI智能體(可以理解為能夠完成複雜任務的AI助手)在"學習經驗"時普遍面臨的困境。
研究團隊將這個問題起了一個非常形象的名字——"自我確認陷阱"(Self-Confirmation Trap)。具體來說,現有的絕大多數AI智能體在執行任務時,都遵循一套"單打獨鬥"的學習模式:同一個AI完成任務、評估自己做得好不好、把總結寫進記憶庫,然後下次遇到類似任務時再調出這段記憶來參考。整個過程完全由同一個AI獨立完成,沒有任何外部核查。
問題就出在這裡。當一個AI在某個任務上犯了錯誤,但這個錯誤在它自己看來是"合理的",它就會把這段錯誤的經歷當成寶貴經驗存入記憶,下次遇到類似情況時還會主動調用這段"經驗",結果一錯再錯。更糟糕的是,隨著這類錯誤經驗越積越多,AI的表現反而會越來越差——不是因為它不努力學習,而恰恰是因為它太"努力"地學習了那些本該拋棄的錯誤教訓。
研究團隊為了說明這個問題有多嚴重,專門做了一個對照實驗:他們故意在一個AI的記憶庫里注入10%的錯誤經驗(比如一些聽起來合理但實際上違反規則的"支付方法"),結果這個AI的任務成功率從82.5%直接跌到了77.2%。這5個多百分點的差距,僅僅來自於一成的記憶被"污染",可以直觀感受到錯誤經驗的破壞力有多強。
為了解決這個問題,研究團隊設計了一套名為EDV的全新框架,中文可以理解為"執行-提煉-驗證"三步法。這套方法的核心思想,正是打破AI獨自學習的閉環,引入多個不同的AI角色分別負責任務執行、經驗總結和質量把關,就像一家公司里的業務員、分析師和審計員各司其職,互相制衡,共同保證寫入檔案的內容是真實可靠的。
二、AI記憶系統是怎麼工作的,又是怎麼壞掉的
在深入了解EDV如何解決問題之前,有必要先弄清楚AI的"經驗學習"機制到底是怎麼運作的。
現代AI智能體的一個重要特性,是能夠把過去執行任務時積累的知識保存下來,供未來決策時參考。這個機制和人類記憶有幾分相似:你第一次去某個城市,可能走了很多彎路;但下一次再去,你就會記得哪條路更快、哪家餐館好吃。AI的記憶庫做的是同樣的事——把"踩過的坑"和"成功的經驗"整理成可復用的知識,幫助自己在未來做出更好的判斷。
這套機制在理論上非常美好,然而當AI需要獨自完成"寫經驗總結"這件事時,麻煩就來了。研究團隊用了一個數學符號來描述這個問題:假設一個AI完成了某個任務,產生了一段行動記錄,這段記錄客觀上是否正確用c(τ)來表示(1代表正確,0代表錯誤);這個AI自己評判這段記錄是否值得寫入記憶則用v(τ)來表示(1代表"寫進去",0代表"不要")。
在單一AI獨自負責執行和評判的情況下,一個本質上錯誤的行動記錄(c=0)被這個AI誤判為正確並寫入記憶(v=1)的概率,會遠高於理想情況。原因在於,AI執行任務時產生的思維偏差,和它評判任務時的思維偏差是同一套偏差——用一把有偏斜的尺子量出來的東西,再用同一把尺子驗證,結果當然會覺得沒問題。
研究團隊還舉了一個非常具體的例子來說明這種情況有多難以察覺。在一個模擬航空公司客服的任務場景里,AI助手需要幫助用戶修改機票。但有一條隱藏規則是:旅行證書(travel certificate)不能用來修改已有的訂單,只能用來全新購票。一個單一AI助手可能會不斷嘗試用旅行證書來完成修改操作,每次失敗後仍然覺得"方向是對的,只是操作細節有問題",然後把這段反覆嘗試的過程當成"寶貴探索經驗"寫入記憶。結果下次遇到類似任務,它還是會優先想到用旅行證書——錯誤的習慣就這樣被反覆強化了。
三、EDV三步法:讓多個AI互相把關
EDV框架的設計,可以用一家新聞媒體的運作方式來理解。在一個優質的媒體機構里,記者負責採訪和寫稿(執行),編輯負責從多篇稿件中提煉出最有價值的角度(提煉),審核部門負責在發布前核實所有資訊的真實性(驗證)。沒有哪個職能由同一個人獨立完成,這種分工不是信任危機,而是保證質量的必要機制。
EDV的第一步叫做"執行"(Execute)。在這個階段,系統會從一個由多個不同AI模型組成的"模型池"里隨機抽取若干個AI,讓它們各自獨立地去完成同一個任務,產生各自的行動記錄。之所以要用多個不同的AI,而不是讓同一個AI多次嘗試,是因為不同的AI模型有不同的"思維方式"和"行為偏好"——一個AI可能習慣於先查詢資訊再行動,另一個可能傾向於直接推理。這些差異會讓行動記錄呈現出真正的多樣性,有的成功、有的失敗、有的走了彎路、有的找到了捷徑,為後續分析提供更豐富的素材。
研究團隊在實際實驗中使用了三個不同的大型語言模型:來自小米的Mimo-V2-Flash、來自智譜AI的GLM-4.7-FP8,以及來自MiniMax的MiniMax-M2.1。每次執行任務時,系統會隨機從這三個模型中選兩個組成"執行小組",確保多樣性的同時避免固定搭配產生新的偏見。
第二步叫做"提煉"(Distill)。執行階段結束後,系統會從模型池中再隨機挑選一個AI,但這次它的角色不是執行者,而是"第三方分析師"。這位分析師的任務是橫向對比所有執行AI產生的行動記錄,找出它們之間的差異:誰成功了、誰失敗了、成功的關鍵步驟在哪裡、失敗的共同原因是什麼。然後,這位分析師把這些跨越多條記錄的對比洞察,濃縮提煉成若干條"候選經驗"。
這個設計的關鍵在於"第三方"三個字。提煉經驗的AI沒有參與任務執行,它不會因為某條行動記錄是自己產生的而對它有偏袒,也不會因為自己在某個地方失敗了就不願意承認那是錯誤。它只負責冷靜分析別人的記錄,這天然地減少了執行者視角帶來的自我確認偏誤。
第三步叫做"驗證"(Verify)。候選經驗產生後,還不能直接寫入記憶庫。系統會把這些候選經驗交還給當初執行任務的那些AI,請它們各自基於自己的執行體驗,對每一條候選經驗進行獨立評判:這條經驗是否準確、是否有用、是否值得保留?
這裡有一個重要的規則設計:EDV採用"默認拒絕"策略。只有當所有執行AI都對一條經驗投了贊成票,這條經驗才能進入"共享記憶庫",供所有AI以後調用。如果只有部分AI認可,這條經驗就只進入那些贊成AI的"私人記憶庫"。如果沒有通過足夠多的認可,就直接丟棄。這種嚴苛的准入標準,相當於給記憶庫安裝了一道高標準的質量過濾網,確保寫進去的每一條經驗都是經過多方認可的可靠知識。
四、不只是學習,還要學會"用"經驗
EDV不僅解決了"怎麼學"的問題,還設計了一套完整的"怎麼用"機制,讓積累下來的優質經驗能夠在合適的時候、被合適的AI調用出來。
在記憶儲存端,EDV維護著兩種類型的記憶庫。共享記憶庫里存放的是那些獲得全體認可的經驗,代表普遍適用的規律,所有AI都可以調用。私人記憶庫則是每個AI獨有的,裡面存的是只有部分AI認可的經驗——這些經驗可能並不普遍適用,但對某些特定類型的AI或某些特定類型的任務有參考價值。
在模型選擇端,EDV還維護著一個叫做"能力矩陣"(Ability Matrix)的東西,可以理解為一張每個AI的"擅長科目表"。通過在提煉階段對每個AI表現的持續跟蹤,系統會逐漸記錄下哪類任務哪個AI表現最好。當一個新任務進來時,系統就會先查這張表,把任務優先交給最擅長處理它的AI來完成。
當某個AI接手新任務時,系統會先去共享記憶庫里檢索與該任務最相關的歷史經驗。如果共享庫里找不到足夠好的匹配,再去查那個AI自己的私人記憶庫。檢索到的相關經驗會被附加到任務描述旁邊,供AI在思考和決策時參考——這就像一個廚師在接到一個新食譜前,先翻翻自己的筆記本,看看上次做類似菜餚時有什麼成功經驗或失敗教訓。
在技術實現上,這套檢索系統使用了一個叫做Qwen3-Embedding-4B的語義嵌入模型,能把文字內容轉化成高維向量,通過計算向量間的相似度來判斷哪些歷史經驗與當前任務最相關。共享記憶庫的檢索門檻設為0.80,私人記憶庫的門檻稍高為0.85,確保調出來的參考經驗真的是高度相關的,而不是牽強附會的。
五、三個戰場上的全面檢驗
研究團隊在三個完全不同類型的AI測試基準上驗證了EDV的效果,每個基準考察的能力側重點都不相同,覆蓋了智能體在現實場景中可能遇到的主要挑戰。
第一個測試場景叫做τ?-bench(tau-squared bench),是一個模擬真實客戶服務的測試平台,涵蓋了航空、零售、電信三個行業。在這裡,AI需要扮演客服人員,處理各種複雜的用戶請求,比如改簽機票、處理退款、解釋套餐政策。這類任務的難點在於規則複雜、限制條件多,而且用戶的要求往往有多種滿足方式,需要在符合規定的前提下找到最優解。
在這個測試中,研究團隊將EDV與多種基準方案進行了對比。完全不使用記憶機制的單模型AI,成功率大約在76%到79%之間。使用了單一AI自我學習記憶機制的ReasoningBank方案,成功率提升到了79%到82%左右。另外兩種利用了多模型集成但沒有EDV核心機制的方案(Judge和Router),成功率分別在81.5%和83.5%。而EDV的綜合成功率達到了86.6%,其中在電信領域的成功率更是高達99.1%。
第二個測試場景叫做Mind2Web,考察的是AI在真實網頁上自動執行操作的能力。AI需要理解用戶的自然語言指令,然後在網頁上找到正確的按鈕或鏈接點擊,完成購物、搜索、填寫表單等任務。這個測試分三種難度:在見過的網站上做新任務(跨任務泛化)、在沒見過的同類網站上做任務(跨網站泛化)、在完全不同類型的網站上做任務(跨領域泛化)。
EDV在三種設置下都表現出了穩定的優勢。以最能說明整體能力的"步驟成功率"(Step Success Rate,即每一步操作都做對的比例)為例,在跨任務測試中,EDV達到了43.17%,比最強基準(ReasoningBank使用Mimo-V2-Flash模型)的42.01%有明顯提升;在跨網站測試中,EDV達到36.56%,優於最強基準的35.83%;在跨領域測試中,EDV達到39.57%,高於最強基準的38.74%。
第三個測試場景叫做MMTB(Multi-Mission Tool Bench,多任務工具測試基準),考察的是AI在需要調用各種外部工具(如翻譯接口、數據查詢API、加密貨幣行情等)時的表現。這類任務的難點在於工具調用格式嚴格,一個參數寫錯了整個調用就會失敗,而且有些任務需要同時調用多個工具並協調它們的輸出。EDV在這個測試中的綜合成功率達到了58.10%,高於最強基準Router的55.96%。
六、拆解每個環節:誰貢獻了多少
研究團隊對EDV的每一個設計環節都做了細緻的拆解實驗,以弄清楚究竟是哪些設計真正發揮了作用,而不是籠統地說"整體方案有效"。這些實驗都在τ?-bench的零售場景下進行,以成功率作為衡量指標。
研究團隊設計了一系列"逐步遞進"的對照組,像剝洋蔥一樣,從最簡單的單AI自學出發,每次只加一個新設計,觀察每步改變帶來的效果。結論非常有說服力。
從只有單個AI自己執行任務、自己寫總結、不做任何驗證開始(成功率83.3%),到加入AI對自己的驗證(成功率83.2%,甚至輕微下降),這個結果充分印證了研究團隊的核心判斷:自我驗證不僅沒有效果,還可能因為AI傾向於為自己的決策辯護而帶來額外干擾。接著,引入一個外部獨立驗證者(成功率84.5%),效果有所改善,但提升幅度有限,因為單個AI的行動記錄提供的對比資訊太少,外部驗證者也很難發現深層錯誤。
真正的躍升發生在引入多個AI協作執行的階段(成功率85.9%)。多樣化的行動記錄讓對比分析成為可能,不同AI的成功路徑和失敗方式形成了鮮明參照。進一步引入第三方提煉機制後(成功率87.1%),經驗的質量又上了一個台階,因為不帶執行者視角的分析師能更客觀地從多條記錄中提取通用規律。最終完整版EDV加上共識驗證(成功率88.6%),在第三方提煉的基礎上再過濾掉那些分析師自身認知局限可能帶來的誤判,形成了完整的質量保障鏈。
關於記憶庫的層次設計(共享庫+私人庫)和能力矩陣的作用,研究團隊同樣做了專門驗證。去掉能力矩陣、改用固定的最佳單一模型處理所有任務,成功率降至86.6%,下降了2個百分點。去掉私人記憶庫、把所有經驗都存入共享庫,成功率降至85.7%,下降了近3個百分點。去掉共享記憶庫、把所有經驗只存入私人庫,成功率降至85.9%,同樣有近3個百分點的下降。這說明兩類記憶庫各有其不可替代的價值——共享庫提供普遍規律,私人庫覆蓋特殊案例,二者缺一不可。
七、經驗質量的真實提升:人工審核怎麼說
數字上的成功率提升是一回事,記憶庫里存的經驗質量究竟提高了多少,才是衡量EDV是否真正解決了核心問題的關鍵。為此,研究團隊對EDV和ReasoningBank存入記憶庫的內容進行了人工審核對比,評分採用5分制。
結果顯示,EDV在所有積極指標上都高於ReasoningBank,在所有消極指標上都低於ReasoningBank。經驗的"正確性與真實可信度"從3.72分提升到4.41分;"可操作性"(即這條經驗能否直接指導AI下次做出更好的行動)從3.58分提升到4.32分;"具體性"(即這條經驗是否有清晰的適用場景而非泛泛而談)從3.64分提升到4.27分。與此同時,"噪音與幻覺程度"(即經驗內容中有多少是沒有實際依據的臆想內容)從1.21分下降到0.63分;"誤導風險"(即如果AI按這條經驗行事會不會反而做錯)從1.08分下降到0.51分。
這組數字之所以有價值,在於它把抽象的"記憶質量提升"變成了可量化、可觀察的對比,證明EDV不只是在最終成績單上表現更好,它從源頭就生產出了更純淨、更可靠的知識原料。
八、經驗的三種升華:EDV改變了AI記憶的樣貌
研究團隊還對EDV產出的經驗內容進行了深入的質量分析,發現相比單AI自學產出的經驗,EDV的經驗呈現出三種明顯不同的特徵,可以看作是AI從"死記硬背"向"真正理解"的跨越。
第一種升華可以稱為"打破慣性,動態適應"。單AI學習產出的經驗,往往是對某個操作步驟的固定描述,例如"完成篩選需要依次點擊類別選項和地區選項"。這種經驗相當於死記了一個操作流程,但沒有理解這個流程在什麼情況下才有必要執行。EDV產出的對應經驗則更進一步:"在執行篩選操作之前,先檢查當前顯示的結果是否已經滿足目標條件,如果已經滿足就直接跳過篩選步驟。"這背後體現的是一種對環境狀態的感知能力,而不是機械執行固定程序。
第二種升華可以稱為"跳出局部,全局優化"。單AI容易陷入"完成了一個子目標就滿足了"的局限思維,比如為一個要求"展示來自巴西的TikTok系列播放列表"的任務,AI只選擇了"巴西"這個地區選項就停下來了,認為任務完成,忘記了還需要同時指定"TikTok Series"這個內容類型。EDV產出的對應經驗則會明確指出:當任務有多個並列條件時,所有條件都必須被滿足,不能完成其中一個就停止。這種經驗幫助AI建立起對任務整體結構的把握,而非只盯著眼前這一步。
第三種升華可以稱為"深挖根因,精準糾錯"。單AI在遇到失敗時往往只記錄表面現象("不要用通用語言名稱調用翻譯工具"),而EDV在多個AI共同分析失敗案例後,能夠挖出更本質的原因("調用翻譯工具時必須使用ISO 639-1標準的雙字母代碼,如'en'代表英語、'ru'代表俄語,而非自然語言描述")。這類經驗不只告訴AI"什麼不對",還告訴它"為什麼不對"和"正確的方式是什麼",具有更強的泛化能力。
九、效率不降反升:聰明地花時間
研究團隊還專門分析了EDV在計算資源消耗上的表現,因為引入多個AI協作自然會讓人擔心成本大幅增加。
在經驗構建階段,EDV確實需要多個AI協同工作,但這個過程是離線進行的——AI不是在等待用戶的時候實時做這件事,而是像工廠在夜間備貨一樣,在閒置時間批量處理。多個AI的工作可以並行進行,時間成本並不會隨AI數量線性增加,也不會影響用戶體驗到的響應速度。
在實際使用階段,EDV反而比對照組更節省資源。由於記憶庫里存的都是高質量、高針對性的經驗,AI調出相關記憶後能更快速地找到正確答案,不需要在錯誤路徑上反覆摸索。具體數字是:在零售場景的測試中,EDV的平均推理令牌消耗(可以理解為AI思考和生成回答所用的計算量)比ReasoningBank減少了24.5%,同時成功率還更高。這相當於一個經驗豐富的專家,不僅回答質量更好,思考時間還比一個經驗不足的人更短——因為優質的歷史經驗幫它直接跳過了大量無謂的試錯過程。
EDV的設計思路,實質上是把解決問題的成本從"反覆在線摸索"轉移到了"一次性高質量離線備知",這種時間結構上的重新分配,使得它在實際部署中具備良好的可行性。
說到底,這項研究想告訴我們的核心道理,其實比它的技術細節更值得細細品味。AI智能體的進步,不僅僅是"見過更多事",更重要的是"記住對的事"。一個只會大量積累、不加篩選的記憶系統,就像一個什麼都記筆記但從不整理筆記本的學生——筆記越來越多,真正有用的資訊卻越來越難找,甚至被錯誤的筆記越積越多地掩蓋。
EDV提供的解法,是把記憶的"進貨質檢"這件事認真做好,在經驗進入長期記憶之前,通過多角度審查把錯誤的內容攔截在外。數據表明,這種做法帶來的不僅是成績單上數字的提升,還有真實可測量的記憶內容質量改善。
當然,這套方案並非沒有局限性。研究團隊在論文中坦誠指出了幾個值得關注的潛在問題:如果多個不同的AI恰好都存在同一種類型的認知盲區,那麼"共識驗證"機制可能反而會把這種共同的錯誤穩固下來,形成新的"多數人偏見"。此外,當團隊裡某個AI模型的能力明顯弱於其他成員時,它的參與可能會干擾整體決策,拉低經驗質量。另外,由於任務執行和經驗評審分散在多個AI之間,一旦出現問題,追溯到底是哪個環節出了差錯,會比單AI系統複雜得多。
未來的研究方向,研究團隊提出了兩個有意思的探索:一是如何動態管理不斷增長的記憶庫,讓陳舊的經驗自動退場、相近的經驗合併整理,保持記憶庫的整潔和高效;二是如何讓AI團隊的規模隨任務難度動態調整,簡單任務用一兩個AI就夠了,複雜任務則自動擴大團隊,探索隨著AI數量增加性能如何變化的規律。
對於關注AI技術發展的普通讀者來說,這項研究揭示了一個很有實際意義的方向:當AI開始在更複雜的現實場景中持續工作時,如何設計它的"成長機制",會直接決定它能走多遠。有興趣深入了解技術細節的讀者,可以通過arXiv:2606.24428查閱完整論文,代碼也已開放在GitHub上供研究者參考。
Q&A
Q1:什麼是"自我確認陷阱",為什麼AI會掉入這個陷阱?
A:自我確認陷阱是指AI智能體獨自完成任務、自己評估結果、自己寫入記憶的閉環模式下,容易把錯誤但"看起來合理"的經驗當成正確經驗存入記憶庫。因為執行任務時產生的認知偏差和評判任務時的偏差來自同一套思維系統,相當於用有問題的尺子量東西再用同一把尺子驗證,自然發現不了問題。
Q2:EDV框架和傳統單AI學習方案相比,具體提升了多少性能?
A:在模擬客服場景的τ?-bench測試中,不使用記憶的單模型方案成功率約為76%到79%,使用傳統單AI自學記憶方案的成功率約為79%到82%,而EDV的綜合成功率達到了86.6%,其中電信場景高達99.1%。此外,EDV在網頁操作和工具調用兩類測試中同樣全面超過了所有對比方案,同時推理計算消耗還比傳統方案降低了約24.5%。
Q3:EDV框架為什麼需要多個不同的AI模型,用同一個模型多次運行不行嗎?
A:關鍵在於"多樣性"。同一個AI模型重複運行,會在相似的地方犯相似的錯誤,行動記錄之間缺乏真正有價值的差異。而不同模型有不同的設計偏好和推理方式,一個可能在某步驟上失敗,另一個恰好在同一步驟上成功,這種對比才能讓提煉環節的第三方分析師發現真正的關鍵差異,提取出有實質參考價值的經驗。研究的消融實驗數據也印證了這一點,多模型執行是整體性能提升的重要基礎。






