AI編程智能體通常存在一個明顯缺陷:它們傾向於孤立地開展研究,在上下文窗口重置後,先前的實驗數據和想法便會隨之消失。這不僅造成大量Token浪費,還會導致模型重蹈覆轍、反覆陷入同樣的困境。
然而,來自中國人民大學高嶺人工智慧學院與微軟研究院的數據科學家們認為,問題的根源並不在於模型本身,而在於整體架構的設計。為此,他們聯合推出了Arbor——一種"持久性假設樹"系統,旨在幫助智能體在漫長的研究過程中持續記憶並不斷優化研究成果。
在這一架構中,一個長期運行的協調器負責統籌整棵樹的研究策略,而多個短期執行器則會在獨立的工作樹中並行測試不同假設。隨著實驗結果不斷回流,假設樹持續更新,研究方向也隨之收窄和細化。
實際測試表明,在相同資源預算下,Arbor在真實工程任務中的表現比標準AI編程智能體提升了兩倍以上。
Info-Tech研究集團研究總監馬哈茂德·拉明對此解釋道:"Arbor能夠隨時間積累資訊,允許智能體像人類一樣在以往發現的基礎上持續構建——通過學習、適應,並最終將過去所學付諸實踐。"
Arbor的研發團隊指出,單純延長執行時間並不能保證研究取得進展。真正的挑戰在於如何維護一種狀態,能夠將大量獨立嘗試轉化為"累積式假設優化"。
此外,研究團隊強調,研究進展不應依賴人工監督者頻繁介入來指示下一步方向或解讀歷次實驗的意義。要實現真正的自主性,智能體研究框架必須能夠在時間維度上持續維繫實驗、數據、結果與失敗之間的關聯。
Arbor的設計圍繞三項核心系統要求展開:
第一,系統必須支持分支,以便子樹能夠同時測試多個具有潛力的競爭性假設。與此同時,無限制的分支擴展可能導致框架失控,因此必須加以約束,確保整體有序。研究團隊將此稱為"有序分支"。
第二,系統基礎設施必須將局部執行與整體策略分離。測試單一假設需要執行編輯、調試、評估等短周期任務,但這些操作不應干擾或遮蔽基於全局實驗結果所做出的宏觀決策。
第三,系統必須能夠區分探索性改進與經過驗證的改進,從而防止AI在試錯過程中出現過擬合現象,而非從底層規律中疊代學習。
持久性是Arbor的核心所在。假設樹將假設與想法、用於測試的代碼或配置產物、實驗證據(結果與指標),以及提煉出的洞見(例如"這個數據過濾器有效,但這個學習率調度器無效")全部關聯在一起。
項目啟動後,短期工作樹負責運行代碼、記錄工作過程並收集指標。其上方的長期協調器則充當實際意義上的研究負責人,持續監控整個過程,更新節點,篩選"有前景的葉節點",剪除或合併分支,傳播可復用的經驗,並決定下一步優先探索哪些假設。
Arbor的構建者寫道:"因此,假設樹是系統的運行研究狀態,它同時兼具搜索前沿、歷史嘗試記憶,以及驗證過產物改進的審計軌跡三重功能。"
為驗證這一機制的有效性,研究團隊在自主優化場景下對Arbor進行了評測:智能體被賦予一個初始研究產物(數據管道、測試套件或訓練腳本),並在無人工干預的前提下,通過疊代實驗提升其"留出集性能"。留出集性能是機器學習中的一項評估指標,用于衡量模型對未見數據的泛化能力。
基於樹結構的架構在多個真實研究任務中接受了測試,涵蓋模型訓練(提升訓練方案與超參數的能力)、測試套件工程(升級評估或訓練套件的能力)以及數據合成(為訓練或評估生成更優質數據的能力)。
最終結果顯示,在相同資源預算下,Arbor在留出集增益方面的表現比Codex和Claude Code的平均水平高出2.5倍。
研究人員由此得出結論:維護一棵結構化、持續演化的假設樹,比以"無記憶"方式運行同款編程智能體能夠帶來更顯著的性能提升。
Info-Tech的拉明指出,Arbor最具創新性的特點在於其維護智能體記憶、保留歷次嘗試和假設相關數據的能力,並表示"下一代自主智能體的關鍵,或許在於隨時間積累證據的能力。"
然而,他也指出,這同樣引發了對大規模健壯研究環境可審計性的擔憂。"隨著自主智能體在無人監督下完成工作的能力不斷增強,企業將需要對智能體採取特定行動或得出特定結論的方式與原因保持透明度。"
Q&A
Q1:Arbor是什麼?它是如何工作的?
A:Arbor是由中國人民大學高嶺人工智慧學院與微軟研究院聯合提出的"持久性假設樹"系統。它通過一個長期運行的協調器統籌研究策略,並由多個短期執行器在獨立工作樹中並行測試不同假設。隨著實驗結果不斷回流,假設樹持續更新,從而幫助AI編程智能體在長時間研究過程中保持記憶、積累經驗,避免重複犯錯。
Q2:Arbor的性能表現如何?與現有工具相比如何?
A:在相同資源預算下,Arbor在真實工程任務中的表現比標準AI編程智能體提升了兩倍以上。具體而言,Arbor在留出集增益方面的表現比Codex和Claude Code的平均水平高出2.5倍,測試範圍涵蓋模型訓練、測試套件工程和數據合成等多個真實研究任務。
Q3:Arbor在大規模應用中面臨哪些挑戰?
A:主要挑戰在於可審計性問題。隨著Arbor等自主智能體在無人監督下完成工作的能力不斷增強,企業需要對智能體採取特定行動或得出特定結論的方式與原因保持透明度。此外,無限制的分支擴展可能導致框架失控,因此系統必須在支持多路並行假設探索的同時,保持整體結構的有序性。






