這項由香港城市大學與微軟亞洲研究院聯合開展的研究,以arXiv預印本形式於2026年6月4日發布,編號為arXiv:2606.05922v1,研究方向歸屬於電腦科學的人工智慧領域。感興趣的讀者可以通過該編號在arXiv平台上查閱完整論文。
**一條關於"自我成長"的核心問題**
假設你是一名剛入職的程序員,公司希望你在工作中不斷進步。通常的做法是,上級會定期出題考你,根據你的答題成績判斷你有沒有進步,然後給你指導。但現在公司的要求變了——考試題目太難找了,沒有人整理標準答案,於是公司希望你僅憑自己過去工作中留下的任務記錄,就能發現自己的弱點並自我提升。
這個看似荒誕的要求,正是當今AI智能體所面臨的真實困境,也是這篇論文試圖破解的核心難題。
現在的AI智能體越來越像一個多才多藝的助手——它有自己的工具箱(各種執行程序)、一套行為規範(操作指南)和一些專屬技能(解決特定問題的方法)。這整套"裝備"合在一起,研究團隊稱之為"harness
",我們可以將它理解為AI的"工作套件"或"能力工具包"。工具包越好用,AI完成任務的能力就越強。
現有的提升方法大多依賴一個關鍵前提:需要有人提前準備好一批標準測試題目,並且每道題都配有明確的正確答案。AI嘗試新的工具包配置之後,用這些題目測一測,看分數是否提高,以此決定要不要接受這次改動。這個過程就像是在參加一場有固定評分標準的考試,沒有考題,整個流程就無法運轉。
然而在現實中,AI被部署到真實工作環境之後,要找到這樣一批"量身定製的標準考題"幾乎是件奢侈的事。不同的公司有不同的需求,任務類型千變萬化,而且整理標準答案本身就需要大量人力和專業知識。與此同時,AI在日常工作中會產生大量"工作日誌"——它解決了哪些任務、用了什麼步驟、最終輸出了什麼結果,這些記錄被研究團隊稱為"軌跡"(trajectory)。這些軌跡中其實蘊含著豐富的改進線索,只是以前沒有人好好利用過。
這篇論文提出的方法叫做"回顧性工具包優化"(Retrospective Harness Optimization,簡稱RHO),它的核心思想是:既然有標準答案的考題難以獲得,不如讓AI自己翻看過去的工作日誌,通過對比和反思,找出自己哪裡做得不好,然後自發地改進自己的工具包。整個過程不需要任何外部評判者,AI就是自己的"診斷醫生"和"改造工程師"。
一、診斷自己:從"工作日誌堆"里挑出最有價值的案例
AI在日常運行中會積累大量軌跡記錄,這些記錄的質量參差不齊。有些任務非常簡單,AI輕鬆完成,從這些記錄里幾乎學不到什麼;而另一些任務極具挑戰性,恰恰暴露了AI工具包的薄弱之處。因此,RHO的第一步是從海量歷史記錄中精準挑選出最有學習價值的案例,研究團隊將這個篩選出來的子集稱為"核心集"(coreset)。
挑選的標準有兩個:任務的難度和任務之間的多樣性。只挑難題不行,因為如果所有案例都集中在同一類型的困難上,改進的方向就會過於偏窄,無法覆蓋AI實際工作中的各種情形;只追求多樣性也不行,因為如果選了一堆簡單任務,根本找不到值得改進的地方。
為了同時滿足這兩個要求,研究團隊引入了一種數學工具叫做"行列式點過程"(Determinantal Point Process,簡稱DPP)。這個名字聽起來高深,但核心思想其實很直覺:當你從一堆候選案例中挑選若干個時,既要保證每個被選中的案例本身足夠困難(難度高的權重更大),又要保證被選出的案例彼此之間差異足夠大(不要選五個長得一模一樣的任務)。這就像你在籌備一場培訓課時,不僅要選那些學員普遍答錯的難題,還要確保這些難題覆蓋不同的知識點,而不是全部集中在同一個角落。
實驗中,研究團隊將難度和多樣性的權重比例設置為7:3,也就是說難度因素的影響力略大於多樣性,因為一道足夠難但與其他案例有所重疊的題目,也比一道簡單但新穎的題目更有價值。最終,系統從歷史記錄中選出10個核心案例,作為後續所有優化工作的基礎。
這一步對最終效果至關重要。研究團隊後來專門做了實驗,驗證了"只按難度選"和"只按多樣性選"都會導致優化效果大打折扣,甚至還不如隨機挑選。只有兩者兼顧的DPP方法,才能穩定帶來顯著的性能提升。
二、重新"上場比賽":讓AI對同一道題做多遍,然後比較差異
挑出核心案例之後,RHO的第二步是讓AI用當前的工具包對每道核心題目重新獨立解答三次。這就好比讓同一個學生用同樣的方法論,對同一道數學題做三遍草稿,然後把三份草稿擺在一起仔細對比。
這三次獨立嘗試產生的記錄被研究團隊稱為"組內軌跡"(group trajectories)。接下來,AI需要從兩個不同角度審視這些軌跡。
第一個角度叫"自我驗證"(self-validation):AI檢查每條軌跡的內部質量,就像一個認真的老師批改作業——這道題做對了嗎?步驟有沒有跳躍?工具用對了嗎?有沒有過早停下來?有沒有做出錯誤假設?這個過程會精確標註出每條軌跡的具體問題所在。
第二個角度叫"自我一致性"(self-consistency):AI把三條軌跡橫向對比,尋找它們之間的分歧。研究團隊的邏輯是:如果AI對同一道題的三次解答差異巨大——一次用這種策略,一次用那種工具,最終答案也各不相同——那說明AI在這類問題上其實很"沒把握",思路搖擺不定,這本身就是一個需要修正的信號。這和人類做選擇題時的經驗類似:如果你對同一道題反覆改答案,說明你對這個知識點根本沒掌握好。
這兩個維度的分析結果會被整合成一份"改進建議書",以結構化的格式記錄下來,並且每份建議書還附有一個"嚴重程度評分"——越嚴重的問題在後續優化時會獲得越大的權重,就像醫院裡的急診分診,病情越重的患者越優先處理。所有核心案例的改進建議書匯總在一起,就構成了驅動下一步優化的完整指導材料。
三、動手改造工具包:同時拿出三套方案,然後選最好的那個
拿到改進建議書之後,RHO進入第三步:讓AI基於這份建議書,生成三套不同的工具包改進方案。為什麼是三套而不是一套?因為工具包的優化本質上是一件創造性的工作,存在相當大的隨機性——同樣的指導意見,AI在不同"靈感"狀態下可能提出截然不同的改進思路,有的改得很好,有的改得一般,有的甚至可能改出問題。既然如此,不如同時生成多套方案,然後擇優錄用。
這種策略被研究團隊稱為"最優N候選"(Best-of-N Harness Proposal)。三套方案分別對核心案例重新解答一遍,AI隨後充當評判者,將每套新方案的解答結果與最初的"原版"解答結果進行逐題比較,用一個從負10分到正10分的評分標準量化差異:正10分表示新方案把原來錯的題變成了對的;0分表示兩者表現相當;負10分表示新方案把原來對的題做錯了。把所有核心案例上的評分平均下來,得分最高的方案就被選定為新版工具包。
這裡有一個關鍵的保守原則:即便是得分最高的方案,也必須嚴格高於零分才會被採納——也就是說,新方案必須真正比原版更好,打平的情況一律視為不合格。這是為了防止AI因為自我評判的隨機誤差而誤判了一個其實更差的方案。如果三套方案都沒有達到這個門檻,那就維持原有工具包不變,等待下次優化機會。
這個"謹慎原則"在實驗中被證明是正確的。研究團隊專門測量了三套候選方案在真實測試集上的得分差異,發現它們之間存在一定的方差,最差的那套有時候會明顯低於最好的那套。選最好的而不是隨機選一套,確實帶來了持續穩定的性能保障。
四、驗證效果:在三個完全不同的真實場景中測試
為了檢驗RHO是否真的有效,研究團隊在三個性質迥異的任務場景上進行了對比實驗。選擇這三個場景的原因,是為了確認RHO不只是在某一類特定任務上管用,而是具有廣泛的適用性。
第一個場景是SWE-Bench Pro,這是一個軟體工程任務集,要求AI像真實的程序員那樣修復複雜的代碼錯誤——不是改一個函數那麼簡單,而是需要理解整個代碼倉庫的結構,跨越多個文件進行協同修改,並且修改結果必須通過嚴格的自動化測試。這類任務需要很長的操作鏈,平均要執行數十步才能完成。
第二個場景是Terminal-Bench 2,這是一個命令行操作任務集,AI需要在真實的電腦終端中完成各種系統級操作,任務完成質量由機器自動判定,沒有任何模糊空間。
第三個場景是GAIA-2,這是一個"知識工作"任務集,AI需要在一個動態變化的模擬環境中處理各種真實世界的事務——比如管理郵件、處理日曆、協調不同應用之間的操作。與前兩個場景不同,這個環境會獨立地"發生事情",AI不能假定世界是靜止的,必須實時感知和響應環境變化。
實驗的基準是一個原版智能體,它沒有經過任何工具包優化,被稱為"Vanilla Codex",使用的是OpenAI的GPT-5.5大語言模型(發布於2026年)。
RHO與三個競爭方法進行了比較。"動態備忘單"(Dynamic Cheatsheet)方法會隨著任務的完成不斷更新一份記錄有用經驗的文本清單,供AI後續參考。"推理記憶庫"(ReasoningBank)則從歷史軌跡中提煉可復用的推理策略,在新任務到來時檢索相關策略作為參考。"預計算上下文"(Sleep-time Compute)的做法是在AI空閒時預先處理歷史記錄,生成簡潔的筆記,在任務開始時直接注入AI的上下文。這三種方法的共同特點是:都不需要標準答案,都依賴歷史軌跡,但它們的改進範圍主要局限於AI的"記憶"層面——增加一些文本記錄,幫AI"記住"一些有用的經驗,而不改變AI的實際操作工具和執行能力。
對比結果清楚地顯示出RHO的優勢。在SWE-Bench Pro上,原版智能體的通過率是59%;三個競爭方法分別將其提升到62%、61%和64%,提升幅度都在5個百分點以內。而RHO一次優化就將通過率提升到78%,提升幅度達到19個百分點——差距極為懸殊。在Terminal-Bench 2上,原版通過率71%,RHO提升到76%,競爭方法最高只到73%。在GAIA-2上,原版通過率29%,RHO提升到37%,而競爭方法中甚至有一個方法(ReasoningBank)在這個任務上還出現了輕微下滑。
研究團隊認為,RHO之所以能做到這一點,根本原因在於它改動的不只是AI的"記憶單元",而是AI的整個工具包——不僅可以新增知識條目,更可以創建全新的可執行腳本、修改操作規範、重構工作流程。這就好比說,競爭方法只是在給工人增加"經驗筆記",而RHO是在直接給工人換上更好的工具和工作手冊。
五、剖析改進後的工具包:AI究竟給自己裝上了什麼新東西?
為了理解RHO的工作機制,研究團隊仔細查看了優化後的工具包里到底增加了哪些內容,這些內容與原版工具包的差異揭示了AI從歷史失敗中學到了什麼。
在軟體工程任務(SWE-Bench Pro)中,AI發現它在修復代碼之後經常因為沒有做好"最終清理"而導致測試失敗——比如Python的臨時緩存文件夾(`__pycache__`)如果沒有在提交前刪除,會干擾測試系統;比如Go語言的編譯器工具鏈有時候不在作業系統的默認路徑里,而是安裝在一個不尋常的位置(`/tmp/go/bin/`),如果不主動去找,AI會誤以為這個工具不存在。針對這些反覆出現的問題,AI創建了一個名為`repair-verify`的新腳本,這個腳本會在任務完成前自動檢查上述所有已知的"坑點",就像一個經驗豐富的程序員最後再仔細審核一遍自己的工作成果。
在命令行任務(Terminal-Bench 2)中,AI意識到它處理幾何圖形輸出時經常犯錯——生成的多邊形掩碼(描述圖像中物體輪廓的坐標序列)有時候不符合格式要求,比如沒有閉合、包含矩形退化情況、或者存在像素重疊。為此,AI專門編寫了一個驗證腳本`validate_mask_csv.py`,在輸出最終結果之前對幾何數據進行全面的格式合規檢查。
在知識工作任務(GAIA-2)中,AI發現自己最常犯的錯誤是在處理有時間要求的任務時忘了先獲取"模擬當前時間",導致對"今天"、"這個月"、"截止日期"等時間概念的理解出現偏差。此外,AI有時候會忘記通過正確的用戶接口發送最終回復,導致任務明明做完了卻沒有"交作業"。針對這些問題,AI修改了工作規範,要求每次任務開始時必須先查詢當前時間,並在結束時明確通過用戶接口發送確認消息。
這些改進的共同特點是:它們都不是憑空想像出來的,而是AI從自己的失敗歷史中歸納出的規律性問題,並且都以可執行的方式固化到了工具包中,確保未來遇到類似情況時不會再犯同樣的錯誤。
六、行為模式的改變:不只是做對了,而且做得更"聰明"了
研究團隊還專門分析了工具包優化之後,AI在完成任務時的行為模式是否發生了變化,這些變化提供了關於"性能提升來自哪裡"的深層解釋。
通過追蹤AI在每個步驟上使用不同類型操作的頻率,研究團隊發現了一些有趣的規律。在軟體工程任務中,優化後的AI顯著增加了"驗證"類操作的頻率——它更頻繁地在修改代碼之後主動運行測試、檢查格式、確認輸出,而不是改完就直接提交。這種額外的自我核查行為,正是性能提升最大的源頭之一。
在命令行任務和知識工作任務中,AI則增加了"執行"類操作的頻率,這意味著AI更積極地使用新增的工具腳本來替代以前手動摸索的做法,效率更高,出錯率更低。
從另一個角度看,優化後的AI還能夠處理更長的任務序列。研究團隊發現,性能提升最明顯的不是那些步驟很少就能完成的簡單任務,而是需要執行數十步乃至上百步的長鏈條任務。這說明新的工具包主要幫助AI在"馬拉松式"的複雜任務中保持穩定性和準確性,而不只是讓簡單任務更快完成。
七、與"有答案的考試方法"相比:不依賴標準答案的RHO能贏嗎?
最後一個重要的問題是:RHO完全不依賴標準答案,那它的效果能和依賴標準答案的傳統方法相比嗎?
研究團隊專門引入了一個叫做"Meta-Harness"的對照方法,它代表了傳統路線的最佳實踐:同樣是讓AI自動生成改進方案,但每次改動之後,都用一批有標準答案的驗證題目來評分,根據得分決定是否接受改動,並且可以反覆疊代多輪。
在資源相當(都只運行一輪、使用三個候選方案)的條件下,Meta-Harness在SWE-Bench Pro上只達到了62%的通過率,而RHO達到78%,RHO反而更勝一籌。這個結果乍看之下似乎反直覺——有答案的方法為什麼反而比沒答案的方法更差?
研究團隊分析認為,原因在於:RHO通過組內軌跡的比較和自我驗證,獲取了比單純的"對錯評分"更豐富的診斷資訊。它能夠精確識別出"哪一步做錯了、為什麼做錯了、如何系統性地避免",這種資訊質量遠高於"這道題最終得了幾分"。而Meta-Harness的評分是一個粗粒度的匯總指標,無法提供同樣細緻的指導。
當然,如果允許Meta-Harness運行10輪疊代(總共使用320次AI調用,而RHO只使用103次),它能夠達到80%的通過率,以3倍多的計算代價換來了略高的最終成績。但這需要大量額外資源,而且仍然依賴於需要人工準備的標準驗證集。RHO在單次運行中就達到78%,在實際部署場景中的成本效益比更加優越。
說到底,這項研究做的事情可以用一句話概括:它讓AI學會了從自己的工作經歷中提煉教訓,並且把這些教訓轉化成實實在在的能力工具,而不是停留在"我下次會注意"的層面。就像一個認真的工匠,在每天收工之後不是簡單地休息,而是把今天遇到的各種麻煩仔細想一想,然後改良自己的工具、優化自己的工作方法,讓明天的工作做得更穩更好。
這個"不需要外部評判者"的自我改進循環,對於真實部署環境中的AI系統來說意義重大。在很多實際應用場景里,沒有人有精力為AI專門準備一批針對性的測試題目,但AI的工作日誌卻每天都在自然積累。RHO打通了從日誌到提升的通道,讓AI能夠在持續運行的過程中悄然進化。
當然,這個方法也有它的邊界。它要求任務環境是可重置的——AI能夠對同一道歷史題目反覆嘗試,這意味著那些"一次性、不可逆"的操作(比如發送了就收不回來的郵件、執行了就無法撤銷的系統操作)暫時不在它的適用範圍內。此外,這個方法依賴於AI工具包本身的可編輯性,如果AI的核心能力完全固化在模型權重里、沒有可改動的外部工具包,RHO就失去了施展的空間。
不過從長遠來看,這項研究指向了一個令人心動的可能性:AI智能體或許真的可以在沒有人類持續干預的情況下,靠自己的歷史積累實現持續成長。這個問題的答案如何演化,值得長期關注。有興趣深入了解技術細節的讀者,可以通過arXiv編號2606.05922查閱完整論文。
Q&A
Q1:RHO方法為什麼不需要標準答案也能優化AI工具包?
A:RHO的核心邏輯是讓AI對同一道歷史任務獨立嘗試三次,然後通過比較這三次嘗試之間的差異來診斷問題。如果三次結果差異很大,說明AI在這類任務上不穩定;如果某次嘗試明顯出錯,AI可以通過自查發現錯誤。這兩種診斷方式合在一起,給出了足夠豐富的改進信號,完全不需要依賴外部提供的"正確答案"。
Q2:RHO優化AI工具包的整體流程是什麼樣的?
A:整個流程分三步進行。第一步是從歷史工作記錄里精選出最有價值的案例,要求這些案例既有難度又有多樣性。第二步是讓AI對選出的案例重新做三遍,從每次的表現中提煉改進建議。第三步是同時生成三套改進方案,讓AI自己對比評分,選出效果最好的那套更新到工具包里,整個過程無需人工干預。
Q3:RHO與其他不需要標準答案的AI自我改進方法有什麼本質區別?
A:其他方法(如動態備忘單、推理記憶庫)主要只改動AI的"記憶"部分,即增加一些文本經驗記錄,實際執行工具和工作流程保持不變。RHO改動的是整個工具包,包括可以運行的腳本程序、操作規範和技能說明,相當於不僅給工人增加了筆記,還給工人換了更好的工具和更完善的操作手冊。這種更全面的改動範圍是RHO在多個任務場景上性能提升更顯著的主要原因。






