香港城市大學與微軟研究院聯手：讓AI智能體在沒有「考官」的情況下，自己給自己打補丁

這項由香港城市大學與微軟亞洲研究院聯合開展的研究，以arXiv預印本形式於2026年6月4日發布，編號為arXiv:2606.05922v1，研究方向歸屬於電腦科學的人工智慧領域。感興趣的讀者可以通過該編號在arXiv平台上查閱完整論文。

贊助商廣告

**一條關於"自我成長"的核心問題**

假設你是一名剛入職的程序員，公司希望你在工作中不斷進步。通常的做法是，上級會定期出題考你，根據你的答題成績判斷你有沒有進步，然後給你指導。但現在公司的要求變了——考試題目太難找了，沒有人整理標準答案，於是公司希望你僅憑自己過去工作中留下的任務記錄，就能發現自己的弱點並自我提升。

這個看似荒誕的要求，正是當今AI智能體所面臨的真實困境，也是這篇論文試圖破解的核心難題。

現在的AI智能體越來越像一個多才多藝的助手——它有自己的工具箱（各種執行程序）、一套行為規範（操作指南）和一些專屬技能（解決特定問題的方法）。這整套"裝備"合在一起，研究團隊稱之為"harness 香港城市大學與微軟研究院聯手讓AI智能體在沒有考官的情況下自己給自己打補丁 "，我們可以將它理解為AI的"工作套件"或"能力工具包"。工具包越好用，AI完成任務的能力就越強。

現有的提升方法大多依賴一個關鍵前提：需要有人提前準備好一批標準測試題目，並且每道題都配有明確的正確答案。AI嘗試新的工具包配置之後，用這些題目測一測，看分數是否提高，以此決定要不要接受這次改動。這個過程就像是在參加一場有固定評分標準的考試，沒有考題，整個流程就無法運轉。

然而在現實中，AI被部署到真實工作環境之後，要找到這樣一批"量身定製的標準考題"幾乎是件奢侈的事。不同的公司有不同的需求，任務類型千變萬化，而且整理標準答案本身就需要大量人力和專業知識。與此同時，AI在日常工作中會產生大量"工作日誌"——它解決了哪些任務、用了什麼步驟、最終輸出了什麼結果，這些記錄被研究團隊稱為"軌跡"（trajectory）。這些軌跡中其實蘊含著豐富的改進線索，只是以前沒有人好好利用過。

贊助商廣告

這篇論文提出的方法叫做"回顧性工具包優化"（Retrospective Harness Optimization，簡稱RHO），它的核心思想是：既然有標準答案的考題難以獲得，不如讓AI自己翻看過去的工作日誌，通過對比和反思，找出自己哪裡做得不好，然後自發地改進自己的工具包。整個過程不需要任何外部評判者，AI就是自己的"診斷醫生"和"改造工程師"。

一、診斷自己：從"工作日誌堆"里挑出最有價值的案例

AI在日常運行中會積累大量軌跡記錄，這些記錄的質量參差不齊。有些任務非常簡單，AI輕鬆完成，從這些記錄里幾乎學不到什麼；而另一些任務極具挑戰性，恰恰暴露了AI工具包的薄弱之處。因此，RHO的第一步是從海量歷史記錄中精準挑選出最有學習價值的案例，研究團隊將這個篩選出來的子集稱為"核心集"（coreset）。

挑選的標準有兩個：任務的難度和任務之間的多樣性。只挑難題不行，因為如果所有案例都集中在同一類型的困難上，改進的方向就會過於偏窄，無法覆蓋AI實際工作中的各種情形；只追求多樣性也不行，因為如果選了一堆簡單任務，根本找不到值得改進的地方。

為了同時滿足這兩個要求，研究團隊引入了一種數學工具叫做"行列式點過程"（Determinantal Point Process，簡稱DPP）。這個名字聽起來高深，但核心思想其實很直覺：當你從一堆候選案例中挑選若干個時，既要保證每個被選中的案例本身足夠困難（難度高的權重更大），又要保證被選出的案例彼此之間差異足夠大（不要選五個長得一模一樣的任務）。這就像你在籌備一場培訓課時，不僅要選那些學員普遍答錯的難題，還要確保這些難題覆蓋不同的知識點，而不是全部集中在同一個角落。

實驗中，研究團隊將難度和多樣性的權重比例設置為7:3，也就是說難度因素的影響力略大於多樣性，因為一道足夠難但與其他案例有所重疊的題目，也比一道簡單但新穎的題目更有價值。最終，系統從歷史記錄中選出10個核心案例，作為後續所有優化工作的基礎。

贊助商廣告

這一步對最終效果至關重要。研究團隊後來專門做了實驗，驗證了"只按難度選"和"只按多樣性選"都會導致優化效果大打折扣，甚至還不如隨機挑選。只有兩者兼顧的DPP方法，才能穩定帶來顯著的性能提升。

二、重新"上場比賽"：讓AI對同一道題做多遍，然後比較差異

挑出核心案例之後，RHO的第二步是讓AI用當前的工具包對每道核心題目重新獨立解答三次。這就好比讓同一個學生用同樣的方法論，對同一道數學題做三遍草稿，然後把三份草稿擺在一起仔細對比。

這三次獨立嘗試產生的記錄被研究團隊稱為"組內軌跡"（group trajectories）。接下來，AI需要從兩個不同角度審視這些軌跡。

第一個角度叫"自我驗證"（self-validation）：AI檢查每條軌跡的內部質量，就像一個認真的老師批改作業——這道題做對了嗎？步驟有沒有跳躍？工具用對了嗎？有沒有過早停下來？有沒有做出錯誤假設？這個過程會精確標註出每條軌跡的具體問題所在。

第二個角度叫"自我一致性"（self-consistency）：AI把三條軌跡橫向對比，尋找它們之間的分歧。研究團隊的邏輯是：如果AI對同一道題的三次解答差異巨大——一次用這種策略，一次用那種工具，最終答案也各不相同——那說明AI在這類問題上其實很"沒把握"，思路搖擺不定，這本身就是一個需要修正的信號。這和人類做選擇題時的經驗類似：如果你對同一道題反覆改答案，說明你對這個知識點根本沒掌握好。

這兩個維度的分析結果會被整合成一份"改進建議書"，以結構化的格式記錄下來，並且每份建議書還附有一個"嚴重程度評分"——越嚴重的問題在後續優化時會獲得越大的權重，就像醫院裡的急診分診，病情越重的患者越優先處理。所有核心案例的改進建議書匯總在一起，就構成了驅動下一步優化的完整指導材料。

三、動手改造工具包：同時拿出三套方案，然後選最好的那個

贊助商廣告

拿到改進建議書之後，RHO進入第三步：讓AI基於這份建議書，生成三套不同的工具包改進方案。為什麼是三套而不是一套？因為工具包的優化本質上是一件創造性的工作，存在相當大的隨機性——同樣的指導意見，AI在不同"靈感"狀態下可能提出截然不同的改進思路，有的改得很好，有的改得一般，有的甚至可能改出問題。既然如此，不如同時生成多套方案，然後擇優錄用。

這種策略被研究團隊稱為"最優N候選"（Best-of-N Harness Proposal）。三套方案分別對核心案例重新解答一遍，AI隨後充當評判者，將每套新方案的解答結果與最初的"原版"解答結果進行逐題比較，用一個從負10分到正10分的評分標準量化差異：正10分表示新方案把原來錯的題變成了對的；0分表示兩者表現相當；負10分表示新方案把原來對的題做錯了。把所有核心案例上的評分平均下來，得分最高的方案就被選定為新版工具包。

這裡有一個關鍵的保守原則：即便是得分最高的方案，也必須嚴格高於零分才會被採納——也就是說，新方案必須真正比原版更好，打平的情況一律視為不合格。這是為了防止AI因為自我評判的隨機誤差而誤判了一個其實更差的方案。如果三套方案都沒有達到這個門檻，那就維持原有工具包不變，等待下次優化機會。

這個"謹慎原則"在實驗中被證明是正確的。研究團隊專門測量了三套候選方案在真實測試集上的得分差異，發現它們之間存在一定的方差，最差的那套有時候會明顯低於最好的那套。選最好的而不是隨機選一套，確實帶來了持續穩定的性能保障。

四、驗證效果：在三個完全不同的真實場景中測試

為了檢驗RHO是否真的有效，研究團隊在三個性質迥異的任務場景上進行了對比實驗。選擇這三個場景的原因，是為了確認RHO不只是在某一類特定任務上管用，而是具有廣泛的適用性。

第一個場景是SWE-Bench Pro，這是一個軟體工程任務集，要求AI像真實的程序員那樣修復複雜的代碼錯誤——不是改一個函數那麼簡單，而是需要理解整個代碼倉庫的結構，跨越多個文件進行協同修改，並且修改結果必須通過嚴格的自動化測試。這類任務需要很長的操作鏈，平均要執行數十步才能完成。

贊助商廣告

第二個場景是Terminal-Bench 2，這是一個命令行操作任務集，AI需要在真實的電腦終端中完成各種系統級操作，任務完成質量由機器自動判定，沒有任何模糊空間。

第三個場景是GAIA-2，這是一個"知識工作"任務集，AI需要在一個動態變化的模擬環境中處理各種真實世界的事務——比如管理郵件、處理日曆、協調不同應用之間的操作。與前兩個場景不同，這個環境會獨立地"發生事情"，AI不能假定世界是靜止的，必須實時感知和響應環境變化。

實驗的基準是一個原版智能體，它沒有經過任何工具包優化，被稱為"Vanilla Codex"，使用的是OpenAI的GPT-5.5大語言模型（發布於2026年）。

RHO與三個競爭方法進行了比較。"動態備忘單"（Dynamic Cheatsheet）方法會隨著任務的完成不斷更新一份記錄有用經驗的文本清單，供AI後續參考。"推理記憶庫"（ReasoningBank）則從歷史軌跡中提煉可復用的推理策略，在新任務到來時檢索相關策略作為參考。"預計算上下文"（Sleep-time Compute）的做法是在AI空閒時預先處理歷史記錄，生成簡潔的筆記，在任務開始時直接注入AI的上下文。這三種方法的共同特點是：都不需要標準答案，都依賴歷史軌跡，但它們的改進範圍主要局限於AI的"記憶"層面——增加一些文本記錄，幫AI"記住"一些有用的經驗，而不改變AI的實際操作工具和執行能力。

對比結果清楚地顯示出RHO的優勢。在SWE-Bench Pro上，原版智能體的通過率是59%；三個競爭方法分別將其提升到62%、61%和64%，提升幅度都在5個百分點以內。而RHO一次優化就將通過率提升到78%，提升幅度達到19個百分點——差距極為懸殊。在Terminal-Bench 2上，原版通過率71%，RHO提升到76%，競爭方法最高只到73%。在GAIA-2上，原版通過率29%，RHO提升到37%，而競爭方法中甚至有一個方法（ReasoningBank）在這個任務上還出現了輕微下滑。

研究團隊認為，RHO之所以能做到這一點，根本原因在於它改動的不只是AI的"記憶單元"，而是AI的整個工具包——不僅可以新增知識條目，更可以創建全新的可執行腳本、修改操作規範、重構工作流程。這就好比說，競爭方法只是在給工人增加"經驗筆記"，而RHO是在直接給工人換上更好的工具和工作手冊。

贊助商廣告

五、剖析改進後的工具包：AI究竟給自己裝上了什麼新東西？

為了理解RHO的工作機制，研究團隊仔細查看了優化後的工具包里到底增加了哪些內容，這些內容與原版工具包的差異揭示了AI從歷史失敗中學到了什麼。

在軟體工程任務（SWE-Bench Pro）中，AI發現它在修復代碼之後經常因為沒有做好"最終清理"而導致測試失敗——比如Python的臨時緩存文件夾（`__pycache__`）如果沒有在提交前刪除，會干擾測試系統；比如Go語言的編譯器工具鏈有時候不在作業系統的默認路徑里，而是安裝在一個不尋常的位置（`/tmp/go/bin/`），如果不主動去找，AI會誤以為這個工具不存在。針對這些反覆出現的問題，AI創建了一個名為`repair-verify`的新腳本，這個腳本會在任務完成前自動檢查上述所有已知的"坑點"，就像一個經驗豐富的程序員最後再仔細審核一遍自己的工作成果。

在命令行任務（Terminal-Bench 2）中，AI意識到它處理幾何圖形輸出時經常犯錯——生成的多邊形掩碼（描述圖像中物體輪廓的坐標序列）有時候不符合格式要求，比如沒有閉合、包含矩形退化情況、或者存在像素重疊。為此，AI專門編寫了一個驗證腳本`validate_mask_csv.py`，在輸出最終結果之前對幾何數據進行全面的格式合規檢查。

在知識工作任務（GAIA-2）中，AI發現自己最常犯的錯誤是在處理有時間要求的任務時忘了先獲取"模擬當前時間"，導致對"今天"、"這個月"、"截止日期"等時間概念的理解出現偏差。此外，AI有時候會忘記通過正確的用戶接口發送最終回復，導致任務明明做完了卻沒有"交作業"。針對這些問題，AI修改了工作規範，要求每次任務開始時必須先查詢當前時間，並在結束時明確通過用戶接口發送確認消息。

這些改進的共同特點是：它們都不是憑空想像出來的，而是AI從自己的失敗歷史中歸納出的規律性問題，並且都以可執行的方式固化到了工具包中，確保未來遇到類似情況時不會再犯同樣的錯誤。

贊助商廣告

六、行為模式的改變：不只是做對了，而且做得更"聰明"了

研究團隊還專門分析了工具包優化之後，AI在完成任務時的行為模式是否發生了變化，這些變化提供了關於"性能提升來自哪裡"的深層解釋。

通過追蹤AI在每個步驟上使用不同類型操作的頻率，研究團隊發現了一些有趣的規律。在軟體工程任務中，優化後的AI顯著增加了"驗證"類操作的頻率——它更頻繁地在修改代碼之後主動運行測試、檢查格式、確認輸出，而不是改完就直接提交。這種額外的自我核查行為，正是性能提升最大的源頭之一。

在命令行任務和知識工作任務中，AI則增加了"執行"類操作的頻率，這意味著AI更積極地使用新增的工具腳本來替代以前手動摸索的做法，效率更高，出錯率更低。

從另一個角度看，優化後的AI還能夠處理更長的任務序列。研究團隊發現，性能提升最明顯的不是那些步驟很少就能完成的簡單任務，而是需要執行數十步乃至上百步的長鏈條任務。這說明新的工具包主要幫助AI在"馬拉松式"的複雜任務中保持穩定性和準確性，而不只是讓簡單任務更快完成。

七、與"有答案的考試方法"相比：不依賴標準答案的RHO能贏嗎？

最後一個重要的問題是：RHO完全不依賴標準答案，那它的效果能和依賴標準答案的傳統方法相比嗎？

研究團隊專門引入了一個叫做"Meta-Harness"的對照方法，它代表了傳統路線的最佳實踐：同樣是讓AI自動生成改進方案，但每次改動之後，都用一批有標準答案的驗證題目來評分，根據得分決定是否接受改動，並且可以反覆疊代多輪。

在資源相當（都只運行一輪、使用三個候選方案）的條件下，Meta-Harness在SWE-Bench Pro上只達到了62%的通過率，而RHO達到78%，RHO反而更勝一籌。這個結果乍看之下似乎反直覺——有答案的方法為什麼反而比沒答案的方法更差？

研究團隊分析認為，原因在於：RHO通過組內軌跡的比較和自我驗證，獲取了比單純的"對錯評分"更豐富的診斷資訊。它能夠精確識別出"哪一步做錯了、為什麼做錯了、如何系統性地避免"，這種資訊質量遠高於"這道題最終得了幾分"。而Meta-Harness的評分是一個粗粒度的匯總指標，無法提供同樣細緻的指導。

贊助商廣告

當然，如果允許Meta-Harness運行10輪疊代（總共使用320次AI調用，而RHO只使用103次），它能夠達到80%的通過率，以3倍多的計算代價換來了略高的最終成績。但這需要大量額外資源，而且仍然依賴於需要人工準備的標準驗證集。RHO在單次運行中就達到78%，在實際部署場景中的成本效益比更加優越。

說到底，這項研究做的事情可以用一句話概括：它讓AI學會了從自己的工作經歷中提煉教訓，並且把這些教訓轉化成實實在在的能力工具，而不是停留在"我下次會注意"的層面。就像一個認真的工匠，在每天收工之後不是簡單地休息，而是把今天遇到的各種麻煩仔細想一想，然後改良自己的工具、優化自己的工作方法，讓明天的工作做得更穩更好。

這個"不需要外部評判者"的自我改進循環，對於真實部署環境中的AI系統來說意義重大。在很多實際應用場景里，沒有人有精力為AI專門準備一批針對性的測試題目，但AI的工作日誌卻每天都在自然積累。RHO打通了從日誌到提升的通道，讓AI能夠在持續運行的過程中悄然進化。

當然，這個方法也有它的邊界。它要求任務環境是可重置的——AI能夠對同一道歷史題目反覆嘗試，這意味著那些"一次性、不可逆"的操作（比如發送了就收不回來的郵件、執行了就無法撤銷的系統操作）暫時不在它的適用範圍內。此外，這個方法依賴於AI工具包本身的可編輯性，如果AI的核心能力完全固化在模型權重里、沒有可改動的外部工具包，RHO就失去了施展的空間。

不過從長遠來看，這項研究指向了一個令人心動的可能性：AI智能體或許真的可以在沒有人類持續干預的情況下，靠自己的歷史積累實現持續成長。這個問題的答案如何演化，值得長期關注。有興趣深入了解技術細節的讀者，可以通過arXiv編號2606.05922查閱完整論文。

Q&A

Q1：RHO方法為什麼不需要標準答案也能優化AI工具包？

贊助商廣告

A：RHO的核心邏輯是讓AI對同一道歷史任務獨立嘗試三次，然後通過比較這三次嘗試之間的差異來診斷問題。如果三次結果差異很大，說明AI在這類任務上不穩定；如果某次嘗試明顯出錯，AI可以通過自查發現錯誤。這兩種診斷方式合在一起，給出了足夠豐富的改進信號，完全不需要依賴外部提供的"正確答案"。

Q2：RHO優化AI工具包的整體流程是什麼樣的？

A：整個流程分三步進行。第一步是從歷史工作記錄里精選出最有價值的案例，要求這些案例既有難度又有多樣性。第二步是讓AI對選出的案例重新做三遍，從每次的表現中提煉改進建議。第三步是同時生成三套改進方案，讓AI自己對比評分，選出效果最好的那套更新到工具包里，整個過程無需人工干預。

Q3：RHO與其他不需要標準答案的AI自我改進方法有什麼本質區別？

A：其他方法（如動態備忘單、推理記憶庫）主要只改動AI的"記憶"部分，即增加一些文本經驗記錄，實際執行工具和工作流程保持不變。RHO改動的是整個工具包，包括可以運行的腳本程序、操作規範和技能說明，相當於不僅給工人增加了筆記，還給工人換了更好的工具和更完善的操作手冊。這種更全面的改動範圍是RHO在多個任務場景上性能提升更顯著的主要原因。