這項由加州大學聖巴巴拉分校的劉騰霄與谷歌雲AI研究院、谷歌DeepMind、紐約大學的研究團隊共同完成的研究,發表於2025年11月21日的arXiv預印本伺服器,論文編號為arXiv:2511.17006v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
在日常生活中,我們經常面臨這樣的情況:手頭的錢有限,需要明智地花費每一分錢來完成購物任務。AI代理也面臨類似的挑戰,只不過它們的"錢"是計算資源和工具調用次數。研究團隊發現了一個有趣的現象:即使給AI代理更多的工具使用"預算",它們的表現也不會變好,就像給一個不會理財的人更多錢,他們可能還是會亂花一樣。
這個問題的核心在於,現有的AI代理缺乏"預算意識"。它們不知道自己還有多少資源可以使用,也不懂得如何根據剩餘資源來調整策略。就像一個人購物時不看錢包里還有多少錢,結果要麼錢花光了還沒買到重要的東西,要麼買了一堆不必要的物品。
研究團隊針對這個問題開發了兩個創新解決方案。第一個是"預算追蹤器",這就像給AI代理裝上了一個實時顯示剩餘預算的小螢幕,讓它時刻知道自己還能使用多少次工具。第二個更高級的解決方案叫做BATS(預算感知測試時縮放),這不僅讓AI代理知道剩餘預算,還教會它如何根據預算情況動態調整工作策略。
為了測試這些方法的效果,研究團隊設計了一個統一的成本計量系統,將AI代理的"思考"成本(處理文字的費用)和"行動"成本(使用工具的費用)合併計算,就像把買菜的錢和買肉的錢加起來算總的採購成本一樣。這讓他們能夠公平地比較不同方法的性價比。
實驗結果令人振奮。在網路搜索任務中,配備了預算追蹤器的AI代理在各種預算限制下都表現得更好。更重要的是,BATS框架能夠在使用更少資源的情況下獲得更高的準確率。這就像一個精明的購物者,不僅能用更少的錢買到更好的商品,還能根據錢包里的餘額靈活調整購買策略。
這項研究的意義遠不止於技術層面的突破。在現實應用中,AI代理的資源使用直接關係到運行成本和效率。無論是企業使用AI來處理客戶諮詢,還是個人使用AI助手來完成日常任務,都需要在有限的計算預算內獲得最佳效果。這項研究為構建更加經濟高效的AI系統提供了重要的理論基礎和實踐指導。
一、現有AI代理的"花錢"困境
當我們給孩子零花錢時,有些孩子會很快花光,有些孩子則會精心規劃每一分錢的用途。AI代理在使用計算資源時也存在類似的差異。研究團隊通過大量實驗發現,傳統的AI代理就像那些不懂理財的孩子,即使給它們更多的"預算"(工具調用次數),它們也無法有效利用這些額外資源。
這個問題的根本原因是什麼呢?AI代理在工作時需要消耗兩種主要資源:一種是"思考"資源,用於處理和分析文本資訊;另一種是"行動"資源,用於調用外部工具如搜尋引擎或瀏覽網頁。就像一個研究員既需要時間來思考問題,也需要預算來購買實驗設備一樣。
研究團隊發現,當前的AI代理缺乏對自身資源消耗的認知能力。它們不知道自己已經用了多少次工具,也不清楚還剩多少"預算"。這導致了兩個嚴重問題:要麼代理過早地停止工作,明明還有資源卻不繼續深入探索;要麼代理採用低效的策略,浪費寶貴的資源在不重要的任務上。
為了更好地理解這個問題,研究團隊建立了一個數學模型來描述AI代理的測試時縮放行為。他們將問題形式化為一個預算約束優化問題:在給定的工具調用預算內,AI代理需要最大化任務完成的準確率。這就像要求一個廚師在固定的食材預算內做出最美味的菜餚。
研究團隊還特別關注了網路搜索代理這一應用場景。這類代理需要使用搜索和瀏覽工具來回答覆雜的資訊查詢問題。每次搜索查詢和網頁瀏覽都會消耗預算,因此如何明智地分配這些調用次數對最終效果至關重要。實驗數據顯示,在沒有預算意識的情況下,代理往往會在答案質量達到平台期後繼續消耗資源,卻無法獲得相應的性能提升。
這種現象在實際應用中造成了巨大的資源浪費。企業在部署AI代理時,往往需要為每次工具調用付費,而低效的資源使用直接轉化為更高的運營成本。研究團隊認識到,解決這個問題需要從根本上改變AI代理對資源的認知和管理方式。
二、預算追蹤器:給AI代理裝上"錢包顯示器"
研究團隊開發的第一個解決方案簡單而巧妙,他們稱之為"預算追蹤器"。這個工具的工作原理就像在AI代理面前放置一個實時更新的預算顯示屏,讓它時刻知道自己還有多少"錢"可以花。
預算追蹤器的設計哲學是"簡單有效"。它不需要對現有的AI代理架構進行複雜的修改,而是像一個插件一樣可以輕鬆集成到任何基於ReAct框架的代理系統中。每當代理使用一次工具後,追蹤器就會自動更新並顯示剩餘的預算資訊,包括搜索查詢次數和網頁瀏覽次數的餘額。
這個看似簡單的改進帶來了顯著的效果提升。實驗結果顯示,僅僅是讓AI代理知道自己的預算狀況,就能在各種不同的語言模型上持續提升任務完成的準確率。這證明了"預算意識"對AI代理性能的重要性,就像一個消費者知道自己錢包里的餘額後會做出更明智的購買決策一樣。
更令人驚喜的是預算追蹤器在資源效率方面的表現。研究團隊發現,配備了預算追蹤器的AI代理不僅準確率更高,而且能夠用更少的資源達到同樣的效果。在某些測試中,使用十分之一預算的追蹤器代理就能達到傳統代理使用全部預算的準確率水平,同時搜索調用次數減少了40.4%,瀏覽調用次數減少了21.4%,整體成本降低了31.3%。
預算追蹤器還解決了另一個重要問題:資源擴展性。傳統的AI代理在達到性能平台期後,即使給予更多預算也無法進一步提升效果,就像給一個已經吃飽的人更多食物也不會讓他更滿足一樣。而配備了預算追蹤器的代理能夠有效利用額外的預算資源,實現持續的性能改進。
研究團隊在三個不同的資訊搜索數據集上驗證了預算追蹤器的效果,包括英文的BrowseComp數據集、中文的BrowseComp-ZH數據集,以及專門測試搜索能力的HLE-Search數據集。在所有測試中,預算追蹤器都表現出了一致的改進效果,證明了其方法的普適性和可靠性。
三、BATS框架:AI代理的智能資源管理系統
雖然預算追蹤器已經帶來了顯著的改進,但研究團隊並未止步於此。他們開發了一個更加先進的解決方案——BATS(Budget Aware Test-time Scaling,預算感知測試時縮放)框架。如果說預算追蹤器是給AI代理裝了一個餘額顯示器,那麼BATS就是為代理配備了一個智能的財務規劃師。
BATS框架的核心創新在於其動態適應能力。它不僅讓AI代理知道剩餘預算,更重要的是教會代理如何根據預算情況調整工作策略。就像一個經驗豐富的項目經理會根據剩餘時間和資源來調整項目計劃一樣,BATS讓AI代理能夠在執行過程中靈活地調整其探索深度和驗證策略。
BATS框架包含兩個關鍵模塊:預算感知規劃模塊和預算感知自我驗證模塊。規劃模塊的工作就像制定一個詳細的購物清單,它會根據問題的複雜程度和當前預算來制定行動計劃。這個計劃不是一成不變的,而是會根據執行過程中獲得的新資訊和剩餘預算的變化進行動態調整。
規劃模塊採用了一種巧妙的約束分解策略。它將複雜的查詢問題分解為兩類約束:探索性約束和驗證性約束。探索性約束用於擴大候選答案的搜索範圍,而驗證性約束則用於確認具體的細節。這種分解方式讓代理能夠更有策略地分配預算,避免過早陷入細節驗證而忽略了更廣泛的探索。
自我驗證模塊則像一個質量控制專員,它會在每次代理提出答案時進行嚴格的檢查。更重要的是,這個模塊具有預算感知能力,能夠根據當前的資源狀況決定是繼續深入當前方向、轉向其他探索路徑,還是接受當前答案。這種動態決策機制確保了代理在任何預算約束下都能做出最優的資源分配決策。
BATS框架的驗證模塊還具有軌跡壓縮功能。當代理決定改變策略時,驗證模塊會將之前的探索過程壓縮成簡潔的摘要,既保留了有用的資訊,又為後續操作釋放了上下文空間。這就像一個記錄員會將長篇的會議記錄精煉成要點摘要,既節省了存儲空間,又保留了關鍵資訊。
實驗結果顯示,BATS框架在各種預算約束下都能實現更好的成本效益平衡。它不僅在準確率上超越了傳統方法,更重要的是推進了成本-性能的帕累托前沿,這意味著在任何給定的成本下,BATS都能提供更好的性能,或者在任何給定的性能要求下,BATS都能以更低的成本實現。
四、實驗驗證:理論與現實的完美結合
為了驗證預算感知方法的有效性,研究團隊設計了一系列全面而嚴格的實驗。他們選擇了三個具有挑戰性的資訊搜索數據集進行測試,每個數據集都代表了不同類型的複雜查詢任務。
BrowseComp數據集包含1266個困難的網路瀏覽問題,需要代理進行持續的資訊檢索和推理。這些問題通常涉及多輪搜索和深度的網頁內容分析,是測試代理綜合能力的理想選擇。BrowseComp-ZH數據集則包含289個中文問題,專門測試代理在區域特定網路環境中的表現能力,這對於驗證方法的跨語言適用性至關重要。
HLE-Search數據集是從"人類最後考試"中精選出的200個問題,這些問題明確要求通過搜索而非純推理來解答。這個數據集的設計確保了測試的焦點真正集中在代理的搜索和資訊整合能力上,而非其內在的知識儲備。
實驗設計中最重要的創新之一是統一成本度量系統的引入。傳統的評估方法往往只關注任務準確率,而忽略了達成這種準確率所需的資源成本。研究團隊開發的統一成本度量將代理的"思考"成本(令牌處理費用)和"行動"成本(工具調用費用)合併計算,就像計算一次完整旅行的總費用需要包括交通、住宿和餐飲所有開銷一樣。
這種成本計算方式的精妙之處在於它考慮了代理運行的所有經濟成本。令牌成本根據不同類型(輸入、輸出、緩存命中)採用了差異化定價,工具調用成本則基於實際的API服務定價。這樣的設計確保了實驗結果與實際部署環境的經濟現實高度一致。
實驗結果令人印象深刻。在嚴格的預算約束下(每種工具100次調用),BATS框架在所有測試數據集上都顯著超越了基線方法。使用Gemini-2.5-Pro模型時,BATS在BrowseComp上達到了24.6%的準確率,在BrowseComp-ZH上達到了46.0%,在HLE-Search上達到了27.0%。這些數字不僅代表了絕對性能的提升,更重要的是它們是在沒有任何特定任務訓練的情況下實現的。
早期停止實驗提供了另一個有趣的視角。當允許代理在找到滿意答案時提前結束而不必耗盡所有預算時,BATS表現出了更加智能的資源管理能力。它能夠根據問題的複雜程度和當前進展動態調整資源使用,在簡單問題上快速得出答案,在複雜問題上投入更多資源進行深入探索。
消融研究進一步驗證了BATS各個組件的重要性。移除規劃模塊會導致中等程度的性能下降,而移除驗證模塊則會造成更顯著的影響,特別是在BrowseComp數據集上準確率從18.7%下降到15.4%。這表明驗證模塊在幫助代理準確評估當前進展和做出明智的資源分配決策方面發揮了關鍵作用。
五、方法論創新:從並行到序貫的全面覆蓋
研究團隊不滿足於單一的測試方式,他們系統地探索了兩種主要的測試時縮放範式:序貫縮放和並行縮放。這種全面的方法論確保了預算感知方法的普適性和穩健性。
序貫縮放就像一個學生反覆修改作文直到滿意為止。在這種方式下,AI代理會在給出初始答案後被要求重新審視問題,利用剩餘預算進行更深入的探索和驗證。研究團隊採用了"預算強制"策略,當代理試圖給出答案時,系統會提醒它還有剩餘預算,鼓勵其進行更全面的資訊收集。
傳統代理在序貫縮放中很快就會遇到性能天花板,即使給予更多預算也無法突破。這就像一個已經江郎才盡的作家,給他更多時間也寫不出更好的內容。相比之下,配備預算追蹤器的代理能夠持續利用額外資源實現性能提升,展現出更好的擴展曲線和成本效益比。
並行縮放採用了完全不同的策略,它就像同時僱傭多個研究員獨立工作,然後綜合所有人的發現得出最佳答案。在這種模式下,代理會在固定預算下運行多個獨立的推理過程,然後通過投票機制或最佳選擇策略來確定最終答案。
研究團隊實現了多種聚合策略來處理並行運行的結果。多數投票就像民主選舉,選擇得票最多的答案作為最終結果。最佳選擇策略則更像專家評審,由判斷模型評估所有候選答案並選出最優解。Pass@N指標則計算在N次嘗試中至少有一次正確的概率,這對於評估代理的可靠性特別有價值。
並行縮放的實驗結果同樣證明了預算感知方法的優勢。在所有並行運行數量和成本水平下,配備預算追蹤器的代理都始終保持更優的性能曲線。這種一致性表明預算感知不僅在單一運行中有效,在多重運行的複雜場景中同樣能夠提供顯著的改進。
特別值得注意的是,研究團隊發現不同的縮放策略適用於不同的應用場景。序貫縮放更適合對準確性要求極高的場景,因為它允許代理在單一問題上投入大量資源進行深度探索。並行縮放則更適合需要快速響應的場景,因為它可以通過並行處理來降低單次查詢的延遲。
六、技術實現細節:從理論到實踐的橋樑
將理論框架轉化為實際可用的系統需要解決許多技術挑戰。研究團隊在實現過程中展現了極高的工程水平和實用主義精神。
在模型選擇方面,研究團隊使用了三個代表性的大型語言模型:Gemini-2.5-Flash、Gemini-2.5-Pro和Claude-Sonnet-4。這種多模型驗證策略確保了結果的普適性,就像在不同品牌的汽車上測試新型燃油添加劑一樣。為了保證實驗的公平性,團隊對所有模型都採用了相同的參數設置和評估標準。
上下文管理是實現過程中的一個重要挑戰。AI代理在執行複雜任務時會積累大量的歷史資訊,就像一個偵探的案件檔案會越來越厚。為了防止上下文長度失控,研究團隊採用了幾種巧妙的策略:每次瀏覽網頁時將內容截斷到合理長度,只保留最新的工具響應而丟棄歷史輸出,在驗證模塊中用簡潔摘要替換詳細軌跡。
工具集成方面,研究團隊使用了Google自定義搜索API進行網路搜索,使用Jina.ai和Crawl4AI進行網頁內容抓取。這些選擇都基於實際部署的考慮,確保了實驗環境與真實應用場景的一致性。
成本計算的精確性對於驗證預算感知方法的有效性至關重要。研究團隊建立了基於實際API定價的成本模型,將搜索和瀏覽調用的單次費用設定為0.001美元,這個數字是基於大量實驗數據的統計平均值。令牌消耗則嚴格按照各個模型提供商的官方定價計算,確保了成本分析的真實性和可信度。
為了處理實驗中的隨機性和確保結果的可重現性,研究團隊採用了嚴格的實驗控制措施。在代理執行過程中使用0.7的溫度參數來鼓勵探索性行為,在最終答案選擇和評估時使用0.0的確定性溫度以確保結果的一致性。所有實驗都進行了多次重複,並報告了平均結果。
評估方法的設計也體現了研究團隊的深思熟慮。他們使用Gemini-2.5-Flash作為判斷模型來評估答案的正確性,並採用了來自Human's Last Exam項目的評估提示詞。這種自動化評估方法不僅提高了評估效率,還確保了評估標準的一致性和公正性。
說到底,這項研究最令人興奮的地方在於它解決了一個既實用又深刻的問題。在AI技術日益普及的今天,如何讓AI系統更加經濟高效地完成任務不再只是技術問題,更是關係到AI技術能否真正普及到普通人生活中的關鍵因素。研究團隊通過簡單而巧妙的預算感知機制,讓AI代理學會了"精打細算",這不僅提升了技術性能,更重要的是為AI技術的大規模應用掃除了經濟障礙。
這項研究的另一個重要意義在於它為AI代理的設計思路提供了新的啟發。傳統的AI代理設計往往專注於在無限資源假設下優化性能,而這項研究證明了在現實的資源約束下,AI代理同樣可以表現得非常出色,甚至更好。這種設計哲學的轉變可能會影響未來AI系統的發展方向,推動更多研究者關注實用性和經濟性的平衡。
歸根結底,這項研究展示了AI技術發展的一個重要趨勢:從追求絕對性能向追求性價比的轉變。在計算資源有限、部署成本敏感的現實世界中,能夠智能管理資源的AI系統將具有更大的實用價值和更廣闊的應用前景。研究團隊的工作為構建這樣的智能系統提供了理論基礎和實踐指導,為AI技術的普及和應用開闢了新的道路。有興趣的讀者可以通過arXiv:2511.17006v1查詢完整的技術細節和實驗數據。
Q&A
Q1:預算追蹤器是如何工作的?
A:預算追蹤器就像給AI代理安裝了一個實時的預算顯示屏,讓它時刻知道還有多少工具調用次數可以使用。每次代理使用搜索或瀏覽工具後,追蹤器會自動更新並顯示剩餘預算,幫助代理根據資源狀況調整策略。
Q2:BATS框架比普通AI代理好在哪裡?
A:BATS框架不僅讓AI代理知道預算餘額,還教會了它如何根據預算情況智能調整工作策略。它包含規劃和驗證兩個模塊,能夠動態決定是繼續深入探索還是轉向新方向,就像一個經驗豐富的項目經理會根據剩餘時間和資源調整計劃一樣。
Q3:這項研究對普通用戶有什麼實際意義?
A:這項研究讓AI助手變得更加經濟高效,意味著企業和個人使用AI服務的成本會降低,同時獲得更好的效果。就像手機變得更省電但功能更強大一樣,這種技術進步最終會讓AI服務更便宜、更普及,普通人也能更容易地享受到高質量的AI助手服務。






