這項由廈門大學資訊學院與吉林大學人工智慧學院聯合完成的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.29796,有興趣深入了解的讀者可以通過該編號查詢完整論文。
一、當AI助手開始"過度搜索"
假設你家裡有一位非常勤奮的助理,每次你問他一個問題,哪怕是"蘋果是什麼顏色的"這種小事,他也要跑出去查好幾本百科全書,甚至在找到答案之後,還要繼續翻閱更多資料才肯回來回答你。這種行為不只是浪費時間,還可能因為看了太多相互矛盾的資料而給你一個錯誤的答案。
這正是當今大語言模型在"代理搜索"(Agentic Search)領域面臨的核心困境。所謂代理搜索,指的是讓AI模型像一個自主的研究員一樣,遇到複雜問題時主動去網際網路或知識庫里搜索資料,然後綜合這些資料給出答案。這種方式在處理需要多個步驟才能回答的複雜問題時非常有效,比如"演奏《明格斯彈鋼琴》的藝術家來自哪個州,那個州人口最多的城市贏得過哪屆印地賽車賽?"
然而問題在於,這些AI代理往往不知道自己到底有多少"存貨"。它們不清楚哪些答案其實自己早就知道,也不清楚什麼時候已經搜集到了足夠的證據可以停下來。結果就造成了兩種讓人頭疼的狀況:一種是明明自己腦子裡就有答案,卻還是要去外面搜索一番,徒增時間和計算成本;另一種是已經找到了足夠的證據,卻還要繼續發起一輪又一輪的搜索,浪費資源的同時還可能引入干擾資訊。
研究團隊把這兩種現象統稱為"過度搜索"(Over-search),並針對這個問題提出了一套名為SAAS(Self-Aware Agentic Search,自我感知代理搜索)的強化學習訓練框架。這套框架的核心思想可以用一個比喻來理解:培養一位真正懂得自己能力邊界的偵探,知道什麼時候憑經驗就能斷案,什麼時候需要出去收集更多證據,以及在拿到關鍵線索之後果斷收手,而不是無休止地繼續調查。
二、過度搜索的問題究竟有多嚴重
要弄清楚為什麼過度搜索是個大問題,首先需要理解現有的AI搜索代理是如何被訓練出來的。目前最流行的方法叫做"基於結果的強化學習"(Outcome-based RL),簡單來說就是:AI代理嘗試各種方法回答問題,最終答對了就給獎勵,答錯了就懲罰。
研究團隊用這種常規方法訓練了一個搜索代理,並仔細觀察了整個訓練過程。結果發現了一個很有意思的現象:在訓練剛開始的時候,還有相當一部分問題是AI直接憑藉自己的知識回答的,不需要搜索。但隨著訓練的進行,這種"不搜索就直接回答"的行為幾乎完全消失了——到了訓練第50步左右,幾乎所有問題都觸發了搜索行為。更糟糕的是,在那些確實觸發了搜索的問題里,繼續在已經找到足夠證據之後仍然發起額外搜索的比例,一路攀升到將近50%。
這說明常規強化學習給了AI一個扭曲的信號:搜索本身被視為一種總是有益的行為,因為搜索往往能提高答對的概率,所以AI學會了"多搜總比少搜好"的錯誤策略。就像那位勤奮助理一樣,他發現每次多查幾本書往往能回答得更準確,於是慢慢養成了事事都要翻書的習慣,哪怕自己明明知道答案。
面對這個問題,研究團隊考慮了一個直覺上很自然的解決方案:直接懲罰搜索行為,對每次搜索扣分,逼著AI少搜索。但實驗結果令人失望。施加固定懲罰後,模型的準確率不升反降,到了訓練的後期甚至出現了完全崩潰的情況,搜索次數急劇減少,但答題質量也大幅下滑。
這背後有兩個深層原因。第一,AI的"知識邊界"是動態變化的。隨著訓練的推進,AI的能力不斷增強,原本需要藉助搜索才能回答的問題,訓練到後來可能憑自身知識就能解決。研究團隊實測發現,在訓練第100步時,約12.7%的問題可以不依賴搜索而正確回答,但到了第300步,這個比例上升到了24.3%。一個在訓練初期設定的固定懲罰標準,到了訓練後期就可能已經過時了。第二,固定懲罰無法區分"該搜但沒搜"和"不該搜卻硬搜",只是一刀切地壓制所有搜索行為,結果反而把那些真正需要外部資訊的問題也給搜索禁止了,導致了性能崩潰。
由此可見,要解決過度搜索問題,不能靠簡單粗暴的懲罰,而需要一套能夠動態感知AI當前能力邊界的智能機制。這正是SAAS框架所要解決的核心挑戰。
三、SAAS框架的三重"偵探訓練法"
SAAS框架由三個相互配合的核心組件構成,可以把它們理解為培養一位優秀偵探所需的三種訓練:第一,讓偵探準確評估自己當前的破案能力;第二,根據每個案子的性質給予有針對性的獎懲引導;第三,確保偵探先練好基本功,再學習何時應該收手。
**搜索邊界建模**是SAAS的第一個核心組件,也是整個框架最獨特的地方。每次訓練更新時,框架會對同一個問題生成兩組平行的答題軌跡:一組是"禁止搜索版",AI只能憑自己的知識回答;另一組是"允許搜索版",AI可以自由調用搜尋引擎。通過對比這兩組的答題結果,框架可以將每個問題歸入三種類別。
如果禁止搜索版有足夠多的軌跡答對了(超過閾值δ,默認設為2),說明在當前的訓練階段,AI自身知識已經足以解決這個問題,此時搜索完全多餘,將其標記為"無需搜索"類型。如果禁止搜索版一個都沒答對,但允許搜索版有至少一個答對了,說明這個問題目前超出了AI的知識邊界,必須藉助外部搜索才能解決,將其標記為"需要搜索"類型。如果兩組都沒有答對,那就說明這個問題目前對AI來說太難了,連搜索也幫不上忙,暫時歸入"待定"類型,不做額外干預。
這個機制的妙處在於它是"在線"的,隨著每次訓練疊代而更新。隨著AI能力的增長,問題的類別會動態調整,昨天需要搜索的問題,今天可能就被重新歸為無需搜索。
**邊界感知獎勵模組**是第二個組件,負責把上述分類結果轉化為具體的訓練信號。對每條答題軌跡,總獎勵由兩部分構成:答題準確度獎勵和搜索行為獎勵。準確度獎勵使用F1分數衡量,F1分數比簡單的對錯判斷更細膩,能夠反映部分正確的情況,給AI一個更平滑的學習信號。
搜索行為獎勵則根據問題類別而有所不同。對於"無需搜索"類型的問題,框架採用零容忍策略:每發起一次搜索就扣去相應的分數(懲罰係數為α乘以搜索次數)。這迫使AI在這類問題上學會直接用自己的知識回答,完全不依賴外部工具。
對於"需要搜索"類型的問題,框架不懲罰搜索本身,但會懲罰那些超出必要範圍的冗餘搜索。具體來說,框架會統計在所有成功答對的允許搜索軌跡中,最少用了幾次搜索就解決了問題,把這個最小值記為Nmin。然後,對於一條具體的答題軌跡,只有當其搜索次數超過Nmin時,超出部分才會被扣分。這就好比說:你至少需要查閱3份資料才能破這個案子,那你查了3份是合理的,查了5份就要扣分了,因為多出來的2次調查是沒有必要的浪費。
對於"待定"類型的問題,由於目前還不清楚到底需不需要搜索、需要搜多少,框架不施加任何額外限制,讓AI自由探索。
此外,搜索行為獎勵還設置了一個額外的保護機制:只有在答題完全正確的情況下,搜索懲罰才會被激活。這樣設計是為了防止AI還沒學會怎麼用搜索的時候,就因為搜索懲罰而提前放棄使用這個工具。
**分階段優化策略**是第三個組件,解決了"什麼時候開始引入搜索限制"的問題。如果從訓練一開始就同時施加準確度獎勵和搜索懲罰,AI很可能陷入一種投機取巧的狀態:為了躲避搜索懲罰,在還沒學會有效利用搜索工具的情況下就放棄搜索,換來的是表面上搜索次數少了,但答題質量也大幅下滑。
為了避免這種情況,SAAS將訓練分為兩個階段。第一階段叫做"能力獲取階段",只使用準確度獎勵,讓AI專心學習如何推理、如何調用搜索工具、如何整合檢索到的證據來回答問題。只有當驗證集上的表現停止提升、說明AI已經掌握了基本的搜索使用能力之後,才進入第二階段。第二階段叫做"效率精煉階段",同時啟用準確度獎勵和邊界感知搜索獎勵,開始引導AI學會在恰當的時機搜索、在恰當的時機停止搜索。
這個策略的邏輯類似於培訓一位偵探:你不會在第一天就告訴他"調查時間越短越好",因為他還沒建立起基本的破案直覺。你首先讓他充分實踐,積累足夠的經驗和判斷力,然後再引入效率考核。
四、實驗結果:少搜索,還能答得更准
研究團隊在七個開放域問答基準上對SAAS進行了全面評測,其中包括三個單跳問題數據集(每個問題只需要一步推理即可回答,如TriviaQA、PopQA和自然問題NQ)以及四個多跳問題數據集(需要多個推理步驟串聯,如HotpotQA、2WikiMultiHopQA、MuSiQue和Bamboogle)。實驗使用了兩種規模的Qwen2.5模型(3B和7B參數版本)以及Qwen3-4B模型作為骨幹。對比的基線方法涵蓋了直接推理、拒絕採樣微調(RFT),以及多種基於強化學習的代理搜索方法(Search-R1、StepSearch、HiPRAG)。
在準確率方面,SAAS在Qwen2.5-3B版本上取得了七個數據集平均45.8%的準確率,超越了最強對比方法HiPRAG的43.6%,提升幅度達到2.2個百分點。在Qwen2.5-7B版本上,SAAS的平均準確率為48.7%,與最強基線HiPRAG的49.8%相比略有不及,但基本保持了競爭力。在多跳問題上,SAAS的優勢尤為明顯,比如在Bamboogle數據集上,SAAS比HiPRAG高出整整8個百分點。
在搜索效率方面,SAAS的表現更加突出。在Qwen2.5-3B版本上,SAAS平均每個問題只需要1.13次搜索,而StepSearch需要1.69次,HiPRAG需要2.19次。換算一下,SAAS比最強對比方法節省了將近一半的搜索調用。在Qwen2.5-7B版本上,SAAS平均只需要0.97次搜索——這意味著平均每個問題甚至不到一次搜索,而同期的GRPO基線需要2.94次,節省了約67%的搜索開銷。
這種效率提升背後有兩個具體的機制在發揮作用。針對"不必要搜索"(即本來不需要搜索卻觸發了搜索)的問題級別抑制,SAAS在Qwen2.5-7B上把這一比率從GRPO的100%降低到了45.9%,相當於超過半數原本"多此一舉"的搜索被成功避免。針對"冗餘搜索"(即已經找到答案之後仍然繼續搜索)的步驟級別抑制,SAAS在Qwen2.5-7B上把這一比率從GRPO的15.4%降低到了6.3%。
研究團隊還特別記錄了訓練過程中的動態變化。在第一階段(能力獲取階段),隨著訓練推進,模型的F1分數和平均搜索次數都在同步上升,說明模型正在學習如何有效利用搜索工具來提高答題質量。進入第二階段(效率精煉階段)後,平均搜索次數從約2.0次急劇下降到1.0次以下,而F1分數僅出現輕微短暫的下降後便趨於穩定。這與此前"固定懲罰"實驗中出現的訓練崩潰形成了鮮明對比,充分說明分階段優化策略成功避免了獎勵欺騙現象。
五、消融實驗:拆開看,每個零件都不可缺
為了驗證SAAS三個核心組件各自的貢獻,研究團隊做了消融實驗,逐一移除其中的組件,觀察性能變化。
移除分階段優化策略之後,平均搜索次數確實進一步下降到了0.95次,但平均準確率從45.8%驟降至40.9%,降幅高達4.9個百分點。這印證了前面的分析:過早引入搜索懲罰會在AI還沒學會有效使用搜索工具之前就限制了它的探索行為,最終導致整體性能下降。
將在線邊界建模替換為離線邊界建模(即只用訓練前的基礎模型評估一次搜索邊界,之後固定不變)之後,準確率下降到42.8%,搜索次數為1.07次,均低於完整版SAAS。這說明隨著訓練進行,AI能力不斷提升,靜態的搜索邊界會越來越跟不上當前策略的實際狀態,導致錯誤的獎勵信號。
參數敏感性分析方面,研究團隊重點考察了閾值δ(決定多少條禁止搜索的軌跡答對了才算"無需搜索")的影響。當δ=1時,搜索次數降至1.05,但準確率僅43.1%,說明標準過於寬鬆導致錯誤地把許多實際上需要搜索的問題也歸為了"無需搜索"類型,過度壓制了必要的搜索行為。當δ=3或δ=4時,準確率分別降至43.7%和43.0%,說明標準過嚴反而引入了噪聲,使得邊界估計不夠穩定。δ=2是準確率和搜索效率最優平衡點,最終被確定為默認參數。
六、案例展示:有圖有真相的過度搜索對比
研究團隊提供了兩個具體案例,直觀地展示了SAAS和常規GRPO訓練方法的行為差異。
第一個案例的問題是:"熊貓是哪個國家的國寶?"這是一個任何對中國文化稍有了解的人都能直接回答的問題。SAAS訓練的模型直接在思考階段回憶起"大熊貓產自中國,是中國的國家象徵",然後給出了答案"中國",全程零搜索。而常規GRPO訓練的模型則先發起了第一次搜索"熊貓是哪個國家的國寶",拿到了相關文檔,然後思考了一下覺得"需要進一步確認",又發起了第二次搜索"大熊貓是中國的國寶嗎",再次拿到文檔,才最終回答"中國"。兩者都答對了,但SAAS用了0次搜索,GRPO用了2次——這就是典型的"不必要搜索"。
第二個案例的問題是:"德國萊茵-赫爾納運河沿線的工業城市是哪座?"答案是杜伊斯堡。SAAS訓練的模型發起了1次搜索,找到了"萊茵-赫爾納運河連接杜伊斯堡港口"的文檔,確認了答案,然後直接給出了答案。而常規GRPO訓練的模型發起了第一次搜索,找到了相關文檔(其中已經出現了"杜伊斯堡"),但隨後思考認為"還需要確認哪些城市在這條運河上",又發起了第二次搜索,然後第三次,最後第四次搜索去確認"杜伊斯堡的工業地位",共計4次搜索,才回答了同一個答案。這就是典型的"冗餘搜索"——第一次搜索已經給出了充分的證據,後續三次完全是多餘的。
歸根結底,SAAS的價值不在於讓AI變得"懶惰",而在於讓AI變得"聰明"——清楚地知道什麼時候自己的知識已經夠用,什麼時候需要藉助外部工具,以及在工具給出了足夠資訊之後果斷停下來。這種"自我感知"能力不僅節省了大量計算資源,也減少了因引入噪聲資訊而導致錯誤答案的風險。
對於普通人而言,隨著AI助手越來越多地進入日常生活,這項研究意味著未來的AI助手不僅能回答得更準確,還能回答得更快、消耗更少的能源。一個總是在已知答案的情況下還要出門查資料的助手,既費時又浪費資源;而一個能準確判斷"這個我知道"和"這個我需要查一查"的助手,才是真正實用的工具。
研究團隊也坦承了當前的局限性:SAAS目前只在基於文本的單模態搜索場景下進行了驗證,尚未拓展到包含圖片、表格或結構化資料庫的多模態搜索場景。不過,SAAS的核心機制本身並不依賴於文本這種特定的輸入形式,將其擴展到多模態場景是一個自然的未來研究方向。感興趣的讀者可以通過arXiv編號2605.29796查閱完整論文,深入了解所有技術細節和實驗數據。
---
Q&A
Q1:SAAS框架是怎麼判斷一個問題需不需要搜索的?
A:SAAS會針對同一個問題同時生成兩組答題軌跡,一組不允許搜索,一組允許搜索,通過對比這兩組結果來判斷。如果禁止搜索的情況下有足夠多次答對,就認為當前AI自身知識已足夠,不需要搜索。如果禁止搜索全都答錯但允許搜索能答對,則認為需要搜索。這個判斷會隨著訓練進展動態更新,不是一次性固定的。
Q2:為什麼給AI搜索行為加固定懲罰反而會讓性能變差?
A:固定懲罰無法區分"該搜而搜"和"不該搜也搜"這兩種完全不同的情況。隨著AI能力的提升,知識邊界是不斷變化的,固定懲罰很快就會和實際情況脫節。此外,如果從訓練初期就施加懲罰,AI還沒學會如何有效使用搜索工具就被迫放棄使用,最終導致整體答題質量下降,甚至出現訓練崩潰。
Q3:SAAS對冗餘搜索是怎麼處理的?
A:對於那些確實需要搜索的問題,SAAS不懲罰搜索本身,但會統計所有成功答對的軌跡里最少用了幾次搜索,把這個最小值作為"充分證據門檻"。如果某條軌跡的搜索次數超過了這個門檻,超出的部分就會被扣分。這樣既不壓制必要的證據收集,又能有效遏制無意義的額外搜索。






