AI助手屢犯錯誤該咋辦？阿里巴巴雲計算團隊打造「錯誤偵探」系統，讓AI學會自我糾錯

這項由阿里巴巴雲計算團隊完成的研究發表於2026年第43屆國際機器學習大會（ICML 2026），會議地點為韓國首爾，收錄於PMLR 306論文集。感興趣的讀者可以通過論文編號arXiv:2605.29447查詢完整論文。

贊助商廣告

你有沒有用過AI助手幫你訂機票、整理文件或者操作電腦？也許你發現過這樣一種讓人抓狂的情況：AI助手明明做錯了，比如點擊了錯誤的按鈕，或者把文件存到了錯誤的地方，但它渾然不覺，繼續一路往錯誤的方向走，越走越偏，直到徹底搞砸整件事。

這就是今天這篇研究要解決的核心問題——如何讓AI助手在操作電腦時，能夠像一個有經驗的人類操作員那樣，發現自己犯了錯誤，然後及時調整、糾正，最終把任務完成好。

研究團隊把這類能力稱為"魯棒性"，也就是當AI自己製造了麻煩之後，還能收拾殘局的能力。為了攻克這個難題，他們從兩個方向同時出發：一方面建立了一套叫做GUI-RobustEval的評測系統，專門用來檢驗AI助手的糾錯能力；另一方面提出了一套叫做RoTS（魯棒性驅動軌跡合成）的訓練數據生成方法，用來幫助AI從大量真實錯誤案例中學習如何糾錯。最終訓練出來的兩個模型RoTS-7B和RoTS-32B，在多項測試中都超過了現有同類AI助手，其中RoTS-32B在OSWorld這個權威測試集上達到了47.4%的成功率，刷新了當時的最優記錄。

---

一、AI助手為什麼會"迷路"，還不知道自己迷路了？

要理解這項研究的價值，先得搞清楚AI助手是怎麼工作的。這類AI系統被稱為GUI智能體——GUI就是圖形用戶界面，也就是我們平時用滑鼠和鍵盤操作的那種電腦桌面。AI助手接收用戶的指令，比如"幫我把這份Excel表格里所有員工的年齡都計算出來"，然後它會通過截圖觀察螢幕，思考下一步該幹什麼，再模擬滑鼠點擊或鍵盤輸入來完成操作。

問題在於，AI助手的每一步判斷都不是百分之百準確的。它可能認錯了按鈕，點到了旁邊那個長得很像的功能鍵；它可能對當前螢幕的狀態理解有誤，以為自己已經完成了某個步驟，其實根本沒有；它可能制定了一個從一開始就走錯方向的計劃。研究團隊把這些由AI自身行為產生的錯誤稱為"策略誘導錯誤"，區別於外部干擾或者系統故障造成的問題。

贊助商廣告

更棘手的是，很多錯誤並不會在犯下的那一刻立刻暴露。就像一個廚師在做菜時不小心少放了鹽，這個問題可能要等到菜端上桌、客人嘗了第一口才被發現。研究團隊分析了12個當前最先進的AI助手在真實任務上的失敗案例，發現大約有40%以上的錯誤需要在犯錯後再走好幾步才能被察覺。這意味著AI助手不僅需要能識別"我現在做的這步是不是錯的"，還需要能在走了一段彎路之後回頭審視，找出幾步之前埋下的那個禍根。

現有的訓練數據和評測標準都沒有很好地覆蓋這種"延遲發現的深層錯誤"。研究團隊把這個問題分成了兩個缺口：一是"錯誤覆蓋缺口"，就是訓練數據里的錯誤類型太單一，主要是一些簡單的低級操作失誤，而真實任務中出現的高級規劃錯誤幾乎沒有；二是"錯誤時間跨度缺口"，就是訓練數據里的錯誤幾乎都是剛犯下就被識別的，而真實任務中常見的那種走了好幾步才暴露的錯誤基本缺失。正是這兩個缺口，導致現有AI助手在面對真實操作失誤時表現不佳。

---

二、"錯誤深度"：一把量尺，衡量AI有多能扛

研究團隊建立的評測系統GUI-RobustEval，最核心的創新在於引入了一個叫做"錯誤深度"的概念。這個概念非常直觀：當AI助手犯了一個關鍵錯誤之後，它又繼續往前走了幾步？走得越多，代表錯誤的影響越深、越難糾正，也就對AI的糾錯能力要求越高。

評測系統一共包含1216個可執行的測試案例，覆蓋了11種具有代表性的錯誤類型，而且每種錯誤都被設置在四個不同的深度級別（0步、1步、3步和5步）。所謂深度0，就是AI剛剛犯了一個錯，馬上讓它接管任務，看它能不能立刻意識到；深度5則意味著AI已經在錯誤狀態下又走了5步，整個任務狀態已經偏離了很遠，再來看它能不能挽回局面。

這11種錯誤類型涵蓋了從低級操作失誤到高級認知偏差的全譜。操作層面的錯誤包括：點擊了錯誤的界面元素（比如把"保存"按鈕認成了"關閉"按鈕）、點擊位置不夠精確、執行了一個什麼變化都沒產生的無效操作、打字時輸入了錯誤內容；規劃層面的錯誤則包括：漏掉了某個必要步驟（比如忘記保存文件）、使用了錯誤的工具或快捷鍵、操作的目標對象弄錯了（比如該處理A列數據卻處理了B列）、參數設置有誤（比如字體大小設錯了）、對任務目標本身理解錯了、不知道任務已經完成還在繼續操作、以及因為不懂某個軟體的具體知識而選擇了錯誤的策略。

贊助商廣告

評測使用了兩個指標：一個叫"錯誤感知率"，測的是AI助手接管任務後能不能在第一時間意識到存在問題；另一個叫"錯誤後成功率"，測的是AI最終能不能把整個任務完成。這兩個指標相互補充——感知是糾錯的前提，但光感知到還不夠，還得真的能把任務做完。

評測結果揭示了一個關鍵規律：隨著錯誤深度的增加，所有被測試的AI助手的成功率都會大幅下降。從深度0到深度5，成功率的下降幅度從33%到75%不等，最差的模型在深度5時成功率幾乎歸零。這說明當前AI助手普遍缺乏處理"深層歷史錯誤"的能力，而這恰恰是真實任務中最常見的情況。

---

三、"錯誤偵探系統"：像查案一樣尋找失敗的根源

如果說GUI-RobustEval是一套用來"體檢"AI助手糾錯能力的工具，那麼RoTS就是一套用來"訓練"AI助手糾錯能力的方法。理解RoTS的關鍵，在於理解它如何用一種像偵探查案一樣的思路，系統性地生成大量包含錯誤和糾錯過程的訓練數據。

整個方法的基礎是一種叫做"軌跡樹"的數據結構。把AI助手完成一個任務的過程比作一棵樹：樹根是任務開始的狀態，每一個節點代表螢幕的一個截圖狀態，每一條邊代表AI執行的一個操作。從根到葉子的每一條路徑，就是AI完成任務的一條完整嘗試記錄。有些路徑走向了正確的終點（任務成功），有些路徑走向了失敗。

RoTS的核心算法叫做"探索-恢復協同擴展"，它同時對成功路徑和失敗路徑進行分析和擴展，形成一個自我強化的學習循環。這個循環分兩條線索並行推進。

第一條線索叫"脆弱性驅動探索"。它專注於已經成功的路徑，但它不是簡單地把成功路徑收集起來，而是沿著成功路徑尋找那些"下一步很容易走錯"的關鍵節點——就像一個偵探在勘查案發現場時，不只是記錄案件經過，還在主動尋找哪些地方最容易出事。對於每一個節點，系統會讓AI助手嘗試多種不同的下一步操作，然後通過一個進展評估模型來評分，看看這些操作中有多少是錯誤的。一個節點的錯誤率越高，說明這裡越"脆弱"，越值得重點關注。系統會從這些脆弱節點出發，繼續向下探索，人為地產生多種可能的失敗模式，從而積累更豐富的錯誤案例。

贊助商廣告

第二條線索叫"經驗引導恢復"。它專注於已經失敗的路徑，試圖找出失敗的根源，並從那個錯誤發生的節點開始，生成一條成功糾錯並最終完成任務的新路徑。關鍵的創新在於，系統不是孤立地分析每一條失敗路徑，而是把失敗路徑和同一任務中其他分支的路徑放在一起對比——如果失敗路徑在第5步做了操作A導致了問題，而旁邊分支在第5步做了操作B卻順利完成了任務，那麼這個對比就是一條非常有價值的線索。系統用一個"經驗引導反思模型"來綜合分析這些對比資訊，推斷出錯誤最可能發生在哪一步，並生成一段具體的糾錯建議，比如"你應該先恢復原來的設置，因為任務要求沒有提到刪除這個選項"。拿到這段建議之後，系統再讓一個"恢復執行模型"從錯誤節點出發，按照建議重新嘗試，生成包含完整糾錯過程的訓練數據。

這兩條線索共同工作的效果是：探索線索解決了"錯誤覆蓋缺口"，因為它主動去發現那些原本不容易出現在訓練數據中的多樣化失敗模式；恢復線索解決了"錯誤時間跨度缺口"，因為它專門生成從深層錯誤狀態出發的長程糾錯軌跡。

---

四、數據清洗：不是所有軌跡都值得學習

收集完大量軌跡數據之後，研究團隊面臨的下一個問題是：這些數據質量參差不齊，直接拿來訓練可能會適得其反。就像一個廚藝培訓班收集了大量學員的烹飪記錄，但有些記錄里學員做到一半走神犯了錯，有些記錄里環境條件不穩定導致同一步驟每次結果不一樣——這些"髒數據"如果直接用來教學，只會讓新學員學到一些壞習慣。

為此，研究團隊設計了一套三層過濾機制。第一層是"環境穩定性過濾"，剔除那些因為系統環境本身不穩定（比如彈出了意外的提示窗口）而導致同一操作結果不一致的軌跡。第二層是"步驟質量過濾"，使用進展評估模型和操作準確性評估模型，逐步檢查每條軌跡中的每一步操作，把那些規劃不合理或者執行有誤的步驟標記出來，從訓練數據中刪除，只保留真正正確的步驟。第三層是"反思行為識別"，用一個專門的模型來判斷每個步驟的思考過程中是否包含有效的"糾錯反思"——也就是既明確指出了某個之前的步驟是錯誤的，又提出了具體的改正策略。包含這類反思行為的步驟被單獨歸入一個叫做"反思數據集"的子集。

贊助商廣告

清洗之後，訓練數據被分成兩部分：一部分是不含特別反思行為的普通步驟，叫做"反思無關數據集"；另一部分是包含有效糾錯反思的步驟，叫做"反思相關數據集"。最終的訓練數據是兩者的混合，其中反思相關數據的比例被設定為10%。這個比例是經過系統實驗找到的最優值——比例太低，AI學不到足夠的糾錯能力；比例太高，AI會養成"過度反思"的壞習慣，每走一步都要停下來自我質疑，反而效率低下、任務失敗率反升。

---

五、實驗結果：數字背後的真實含義

研究團隊把訓練好的RoTS-7B和RoTS-32B放到三個不同的測試場景中進行了系統評估。

在GUI-RobustEval的測試中，兩個模型在所有開源模型里排名最高。RoTS-7B在深度0到深度5的平均成功率為34.2%，RoTS-32B則達到了40.3%，分別超過了規模相當的競爭對手OpenCUA-7B和OpenCUA-32B。更值得關注的是，在最難的深度5測試中，RoTS-7B的成功率僅下降了38%（從深度0的43.5%降到深度5的26.7%），RoTS-32B僅下降了33%（從49.7%降到33.2%），而其他模型的下降幅度普遍在41%到75%之間。這說明RoTS訓練的模型在面對深層歷史錯誤時有著更強的"抗跌性"。

在錯誤感知率方面，RoTS-7B達到了51.9%，RoTS-32B達到了58.8%，意味著超過一半的時間裡，模型在接管任務的第一時間就能意識到存在問題。作為對比，專門設計的GUI-Owl-7B模型的感知率只有5.9%，相當於接近瞎摸。

在OSWorld這個包含369個Ubuntu桌面任務的全面測試中，RoTS-32B以47.4%的成功率（最多50步）刷新了所有開源模型的記錄，超過了當時一些規模大得多的模型。更能體現"穩定性"的指標是All-Pass@4——這個指標要求模型在同一任務的4次獨立嘗試中全部成功，對應著真實應用中"每次使用都能可靠完成任務"的需求。RoTS-32B在這個指標上達到了33.8%，而同類競爭對手OpenCUA-32B只有15.5%，差距接近一倍。換句話說，RoTS訓練的模型不僅會，還"穩"。

贊助商廣告

在Windows作業系統的測試平台WindowsAgentArena上，RoTS-7B和RoTS-32B分別達到了28.2%和39.1%的成功率，超過了包括將開源小模型與專有大模型組合使用的混合架構（Jedi-7B搭配GPT-4o，32.9%）在內的所有對比方案。

---

六、消融實驗：拆解這台機器，看看每個零件有多重要

為了驗證方法中每個組成部分的實際貢獻，研究團隊做了一系列"拆零件"的對比實驗，在相同的計算預算下，比較不同配置的效果。

當只使用普通的並行採樣（相當於讓多個AI同時嘗試完成任務，不做任何特殊的錯誤探索和恢復）時，OSWorld上的成功率為18.1%。加入脆弱性驅動探索之後，成功率上升到19.6%，說明主動探索失敗模式確實有助於提升整體成功率。加入經驗引導恢復之後，成功率也上升到19.5%，同時All-Pass@4從8.6%躍升到12.1%，說明專門的糾錯訓練對穩定性的提升效果更為顯著。當兩者同時使用時，All-Pass@4達到14.1%，成功率達到21.4%，充分體現了兩條線索的協同效應。

研究團隊還專門比較了自己生成的訓練數據與人類示範數據的質量差異。他們把一個高質量的人類操作數據集AgentNet作為對照，發現單獨使用AgentNet中的普通操作數據（不含糾錯示例）時，OSWorld的All-Pass@4隻有7.8%；加入AgentNet自帶的人類糾錯示例後，僅提升到8.4%；而把人類糾錯示例替換成RoTS生成的策略誘導錯誤糾錯示例後，直接跳到11.6%；使用全套RoTS數據（包括普通操作數據和糾錯數據）時，達到最高的14.1%。這說明，AI在實際操作中犯的錯誤與人類犯的錯誤在性質上有根本差異，只有用"AI自己會犯的錯誤"來訓練，才能有效提升AI的糾錯能力。

---

七、還不夠完美：目前的局限和未來方向

研究團隊對方法的局限性保持坦誠。目前整個系統只在桌面作業系統（Ubuntu和Windows）上進行了測試，手機和平板等移動設備上的AI操作場景尚未涉及。

在評測方面，GUI-RobustEval的測試需要將錯誤前綴歷史注入到不同AI助手的輸入格式中，而不同AI助手的格式存在差異，這種轉換過程可能引入輕微的偏差。研究團隊說明，這種轉換在同一個助手的不同測試深度之間是一致應用的，因此對於比較同一助手在不同深度的表現影響不大，但跨助手的比較時需要留意這一點。

贊助商廣告

在實際表現中，研究團隊也坦承，RoTS訓練的模型有時會出現"過度反思"的問題，就像一個過于謹慎的人每走一步都要停下來想"我剛才做的對不對"，結果反而白白浪費了操作機會，沒能在規定步數內完成任務。這個"適度"的拿捏，在未來的改進中還有空間。

研究團隊展望了幾個未來方向：將系統擴展到移動設備；通過數據飛輪或強化學習來讓合成模型和訓練模型在疊代中互相促進，形成自我進化的循環；以及在擴大任務規模和探索深度的同時保持成本可控。

---

說到底，這項研究解決的是一個在AI普及過程中越來越重要的實際問題：當AI助手代替我們完成操作任務時，它能不能像一個靠譜的人類助理那樣，在出了錯之後自己發現、自己糾正，而不是一路錯到底還茫然不知？

研究團隊給出的答案是：可以，但需要專門的訓練數據。而這種訓練數據不能靠人工編造，也不能簡單地從人類操作記錄中搬運，因為AI犯的錯誤和人類犯的錯誤在規律上有根本不同。只有讓AI在真實環境中主動探索自己的失敗模式，再從中學習如何糾錯，才能培養出真正有用的"自我修復"能力。

這對普通用戶意味著什麼？當AI助手幫你處理文件、作業系統、完成工作流程時，它出錯的概率依然存在，但出錯之後不把整件事搞砸的概率會大大提高。這是邁向"可靠AI助手"的重要一步，雖然還不是終點。

一個值得繼續思考的問題是：當AI助手能夠非常熟練地糾正自己的錯誤時，我們人類對AI操作過程的監督習慣會不會隨之改變？我們會不會因為"它會自己糾錯"而變得更不注意檢查AI的輸出？這種信任與監督之間的微妙平衡，或許才是未來AI應用中更需要認真對待的挑戰。對這篇研究感興趣的讀者，可以通過arXiv編號2605.29447找到完整的原始論文。

---

Q&A

Q1：GUI-RobustEval評測系統和普通的AI測試有什麼不同？

A：GUI-RobustEval專門測試AI助手在自己犯錯之後的糾錯能力，而不是測它在理想情況下的操作準確性。它的獨特之處在於引入了"錯誤深度"概念，把AI犯錯後繼續走了幾步作為變量，測試AI在不同程度的錯誤積累下還能不能挽回局面。現有的大多數測試只考慮AI能不能完成任務，不專門測它犯錯後的應對能力，GUI-RobustEval填補了這個空白，包含1216個測試案例，覆蓋11種錯誤類型。

贊助商廣告

Q2：RoTS生成訓練數據的成本大概是多少？

A：根據研究團隊的成本分析，在20000個任務上完成完整的數據合成，總花費約為4.81萬美元，耗時約16天。其中自部署開源模型的GPU伺服器成本約1.99萬美元，調用商業API的費用約2.17萬美元，雲端運行作業系統環境的費用約0.65萬美元。研究團隊認為這個成本是相對合理且可擴展的，因為生成的80萬條高質量訓練樣本可以用來訓練多個不同規模的模型。

Q3：反思數據在訓練中占多少比例最合適，為什麼不能全用反思數據？

A：研究發現最優比例是10%，也就是訓練數據中有九成是普通操作步驟，只有一成是包含糾錯反思的步驟。比例太低時AI學不到足夠的糾錯能力，但比例太高時AI會養成"過度反思"的習慣，每走一步都停下來自我懷疑，反而會在規定步數內完不成任務，實驗顯示當反思數據占比達到30%時，成功率甚至比完全不用反思數據還要低，從21.4%跌至14.8%。