這項由哈爾濱工業大學與小紅書聯合開展的研究發表於2026年5月,論文編號為arXiv:2605.28721,有興趣深入了解的讀者可通過該編號查詢完整論文。
每當我們看到AI助手快速而準確地回答問題時,往往會以為它真的像一名優秀的調查記者那樣,四處收集證據,然後綜合資訊給出結論。然而,這項研究給我們潑了一盆冷水——AI或許根本沒在"調查",它只是翻出了自己的老筆記本,然後用上網搜索來確認一下自己已經知道的答案。
這個問題並非無關緊要。隨著OpenAI的Deep Research和谷歌的Gemini Deep Research等系統被大規模部署,人們越來越依賴這類AI搜索代理來處理複雜資訊需求。那麼,這些系統在各種評測榜單上的高分,究竟代表的是真正的搜索和推理能力,還是模型記憶力的勝利?研究團隊決定用三把解剖刀來剖開這個問題。
一、AI搜索代理的"老底"被翻出來了
研究團隊選取了四個當下最主流的AI搜索評測基準來做實驗,分別是BrowseComp、BrowseComp-ZH、HLE和GAIA。這四個基準涵蓋了從長時間網路瀏覽、多語言瀏覽到專家級知識推理、通用工具輔助解題等各種場景,可以說基本覆蓋了AI搜索代理面臨的主要挑戰類型。
研究人員找來了六個頂尖AI模型參與測試,包括來自開源和閉源兩個陣營的Seed2.0、DeepSeek-V4-Pro、DeepSeek-V3.2、Kimi K2.6、MiniMax M2.5和GLM-5.1。這些模型代表了當前AI搜索代理能力的最高水平,同時也最有可能在訓練過程中積累了海量的世界知識。
第一個實驗的設計非常簡單粗暴:把所有搜索工具都拔掉,看看AI在沒有任何上網能力的情況下能答對多少題。結果相當出人意料。在全部24個"模型×基準"的組合中,準確率從20.4%到62.0%不等,平均高達38.9%。換句話說,在這些被設計為"必須通過搜索才能回答"的題目中,將近四成不用搜索就能答對。
其中最誇張的幾個數據值得單獨拿出來說:Kimi K2.6在BrowseComp-ZH上不靠任何搜索工具就答對了62%的題目;MiniMax M2.5在BrowseComp上裸答得了44.5分;Seed 2.0在被譽為"專家級挑戰"的HLE上盲答也拿到了50.2分。這就好比一個學生在"開卷考試"中,根本沒翻書就已經答完了將近一半,然後再翻書確認一下剩下的,最終考出高分——你能說他不擅長考試嗎?但這和真正理解知識、主動查閱資料,完全是兩回事。
值得關注的是,工具帶來的提升幅度並不簡單地和模型的記憶能力掛鉤。MiniMax M2.5在不用工具時分數最高,但加上工具之後進步幅度反而是最小的,只多了28.5分。相比之下,DeepSeek-V4-Pro裸答只有20.4分,但有了工具之後足足多了49.4分。這說明最終的高分背後藏著兩種截然不同的能力:一種是在搜索之前就已經知道答案,另一種是真正通過搜索找到答案。這兩種能力在現有的評分機制下被混在一起,無法區分。
二、當證據被抽走,AI的搜索行為徹底崩了
第一個實驗證明AI在不用搜索工具時已經能答對很多題。接下來,研究團隊想看看一個更深入的問題:如果保留搜索工具,但把所有能支持正確答案的文獻都從搜索結果里刪掉,會發生什麼?
這個實驗使用了一個叫做BrowseComp-Plus的資源。這個資源為每道題提供了四類文檔:直接包含答案證據的文件、高質量輔助材料、與問題無關的干擾文件,以及表面看起來有關但實際上幫不上忙的"硬負例"文件。研究團隊在做實驗時,把前兩類文件全部從搜索索引里刪掉,只留下後兩類。這樣一來,AI仍然可以正常搜索,但無論怎麼搜,都找不到能幫它答對題目的資訊。
結果出現了一個研究團隊稱之為"徹底逆轉"的現象。六個參與實驗的模型,在這種"有工具但找不到支撐證據"的條件下,全部表現得比完全不用工具時更差。平均準確率從不用工具時的26.1分驟降到只有6.2分,所有模型的分數都低於10分。最慘烈的是MiniMax M2.5,從裸答的44.5分跌到了8.0分;Kimi K2.6則從25.5分跌到了只有2.3分。
這個結果揭示了一個本質問題:AI在搜索時根本不是在"發現"新的資訊,而是在用搜索來"確認"自己原本就想說的答案。當搜索結果無法提供這種確認時,AI不但沒有聰明地放棄搜索、堅守自己的記憶,反而被大量無關或誤導性的資訊帶偏了方向,最終越搜越錯。就好像一個本來記住了正確答案的學生,在考試時被允許查參考書,結果書里全是錯的資訊,他反而被迷惑得把正確答案改成了錯的。
研究團隊將這種現象命名為"內在知識依賴"(Intrinsic Knowledge Dependence,簡稱IKD):AI代理用自己記憶中的知識來生成猜測,然後用搜索來尋求對這個猜測的驗證。一旦驗證渠道失靈,整個搜索循環就失去了錨點,陷入混亂。
三、AI在搜索時到底在想什麼:軌跡分析揭秘
前兩個實驗從外部角度證明了IKD的存在。第三個實驗則深入到AI的搜索過程內部,去追蹤每一條搜索指令的來源。
研究人員給每條搜索查詢都打上了標籤:如果查詢中的核心資訊最先出現在AI自己的推理過程中,就叫"模型發起的查詢";如果核心資訊最先出現在之前的檢索結果里,就叫"檢索發起的查詢"。換句話說,這是在追問:這一步搜索,是因為AI從上一步的搜索結果里發現了新線索,還是因為AI自己腦子裡冒出了一個新想法?
結果非常清晰:對於所有被測試的模型,超過一半的搜索查詢都是"模型發起的"。更糟的是,隨著搜索的深入,這個比例還在不斷攀升,到了搜索的後半程,有超過60%的查詢都來自AI自己的"頭腦風暴",而不是來自外部檢索到的線索。這意味著AI主導整個搜索過程的方式,更像是一個固執地按照自己劇本行事的導演,而不是一個隨著新證據不斷調整方向的真正調查員。
更令人沮喪的是,即便AI偶爾真的檢索到了正確答案所需的證據,它也常常視而不見。研究人員測量了"當正確證據被檢索到之後,AI在接下來三輪對話中真正使用這個證據的比例",結果四個模型的這一比率都低於三分之一:DeepSeek
V3.2為32.2%,GLM-5.1為24.7%,MiniMax M2.5為30.8%,Kimi K2.5為31.5%。換言之,AI找到了鑰匙,卻超過三分之二的時候選擇把鑰匙放在一邊,繼續按原來的方向亂撞。
這三個實驗合在一起,給出了IKD的完整畫像:AI用自己的參數記憶提出假設,用搜索去確認這些假設,當確認失敗時既不會明智地放棄也不會靈活轉向,當成功找到證據時又經常忘記利用。搜索過程本質上是模型自身思維的延伸,而非證據驅動的發現之旅。
四、LiveBrowseComp的誕生:專門為"超出AI記憶"而設計的考場
既然現有的評測基準無法區分"AI知道什麼"和"AI能找到什麼",研究團隊決定親手打造一個新的評測工具,徹底堵死內在知識依賴這條捷徑。這就是LiveBrowseComp。
LiveBrowseComp的核心設計原則是:所有題目的答案,都必須依賴於基準構建之前90天內發布的事實,任何僅憑更早之前的資訊就無法回答這些問題。90天這個時間窗口,明顯超過了當前主流AI訓練流程的數據收集延遲,足以保證這些資訊尚未被納入AI的訓練數據。
題目的素材來源於六個持續更新的結構化資料庫,涵蓋了相當廣泛的領域:GDELT負責提供全球新聞事件數據,TMDB提供電影和電視領域的資訊,RAWG提供電子遊戲資料庫記錄,CVE/NVD提供網路安全漏洞披露資訊,SportsDB提供體育賽事數據,USGS提供地震記錄。這些數據源的多樣性也有一個重要的考慮:避免某一個特定領域知識特別豐富的AI模型占到便宜。
原始數據經過三個階段的過濾。第一階段是時間過濾,直接丟棄所有核心事實可以從90天之前的資訊推斷出來的候選條目。第二階段是長尾過濾,因為即便是新鮮發生的事件,如果足夠轟動,也可能在幾天之內就通過各種渠道滲入AI的參數記憶。所以研究團隊對每個候選條目都根據來源特點打了一個"冷僻度"評分,只保留那些曝光度低、覆蓋面窄的事件,以此進一步壓低它們進入AI訓練數據的可能性。第三階段是答案穩定性過濾,剔除那些答案會隨時間變化的候選條目,比如累計票房收入、實時排名等動態數據,只保留那些有明確穩定答案的事件。
通過這三道過濾之後剩下的種子事件,才會交給經過專門篩選和培訓的人工標註員來撰寫題目。招募標註員的門檻也相當高:每個標註員在正式工作之前,必須獨立完成十道BrowseComp原題,全程只能使用網路搜索,至少要花兩個小時,而且至少要答對兩道。這個訓練環節的目的,是讓標註員在動手出題之前,對"這個級別的題究竟難在哪裡"有切身的體會。
通過篩選的標註員拿到種子事件後,開始自主進行網路調研,並據此設計題目。設計的要求非常具體:題目必須需要多步驟、多來源的推理,答案不能在搜尋引擎對題目文本的前三頁結果里直接找到;答案必須是唯一的短字符串;而且題目中至少要有一個關鍵線索來自於過去90天內的新發布資訊,缺少這個時間鎖定的線索就無法得出答案。
五、五道關卡確保質量:人工審核體系的嚴格運作
每一道題完成後,都要經過一套獨立的五重驗證流程。
第一關是正確性與唯一性審核。專門的審核員不僅要順著標註員給出的證據鏈逐條核查,還要主動搜尋反例。具體做法是:讓DeepSeek-V4-Pro、GLM-5.1、Kimi K2.6和MiniMax M2.5四個模型各自帶著搜索工具獨立作答8次,收集所有的候選答案,然後逐一檢查這些候選答案有沒有哪個同樣能滿足題目中的所有約束條件。只要發現任何一個不同於標準答案的候選答案也能通過所有檢驗,這道題就被直接淘汰。這個策略有些矯枉過正,會丟掉一些本來合格的題目,但這樣做能最大程度保證每道保留下來的題目都有且只有一個正確答案。
第二關是難度校準。三名沒有參與出題的獨立標註員各自嘗試用網路搜索解答這道題,每人最多花30分鐘。三人中只要有任何一人在30分鐘內答出來了,這道題就被判定不夠難,直接淘汰。
第三關是時間錨定驗證。審核員要找出題目證據鏈中所有來自90天以內的新發布頁面,然後嘗試在90天之前的資訊里找到能替代這些新頁面的證據。如果所有的新頁面都能被舊證據替代,說明這道題並不真正依賴最新資訊,同樣淘汰。
三重審核各有三位獨立的審核員,且三位審核員互不知曉對方的結論。完成之後,還有第四位審核員負責匯總三份審核報告,並對有分歧的地方做出最終裁定。
最終通過所有關卡的題目共有335道,覆蓋八個話題領域,其中電影和娛樂各占26%,科技占15%,體育占13%,地理和其他各占7%,政治占5%,藝術與音樂占1%。
六、人類測試:驗證新基準的難度設計是否公平
一個擔憂是:LiveBrowseComp的分數之所以低,或許是因為這些題本身就比BrowseComp更難,而不是因為AI失去了記憶支撐。為了排除這種可能,研究團隊招募了一批與出題環節完全無關的普通標註員,讓他們同時做BrowseComp和LiveBrowseComp的題目,同樣只能用網路搜索,每道題至少要花兩小時才能放棄。
結果相當有說服力:人類在兩個基準上的答題成功率幾乎完全相同,BrowseComp的成功率是30%,LiveBrowseComp是31%;完成時間的分布也高度吻合。人類搜索者不受IKD的影響,他們在兩個基準上表現相當,這就證明了兩個基準對真正的搜索能力要求是等同的。如果AI在LiveBrowseComp上表現差很多,原因只能是記憶捷徑被堵死了,而不是題目難度本身升級了。
七、測試結果:記憶捷徑消失之後,AI的搜索能力原形畢露
研究團隊用11個模型在LiveBrowseComp上進行了正式評測,既包括DeepSeek V4 Pro、Kimi-K2.6、Kimi-K2.5、GLM-5.1、GLM-5.0、DeepSeek v3.2、MiniMax M2.5等開源模型,也包括Seed 2.0、GPT 5.4、Gemini 3.1 Pro、Claude Sonnet 4.6等閉源商業模型。
首先是裸答測試。所有11個模型在沒有任何搜索工具的情況下,在LiveBrowseComp上的準確率全部低於2%。相比之下,同樣的模型在BrowseComp上裸答能拿到20%到44%。這一對比直接證明了LiveBrowseComp的時間約束和冷僻度過濾確實有效地切斷了AI的記憶捷徑。
加上搜索工具之後,AI的表現有了提升,但與在BrowseComp上的水平相比仍然大幅下降。在LiveBrowseComp上,得分最高的GPT 5.4拿到43.2分,最低的MiniMax M2.5拿到28.0分;而同樣這些模型在BrowseComp上的得分區間是51分到77分。整體下滑了25到40分。
更有意思的是排名的變化。GLM 5.1在BrowseComp上是所有開源模型的第一名,拿了68分;但在LiveBrowseComp上只得了33.9分,排到了倒數位置。DeepSeek v3.2在BrowseComp上墊底,只有51.4分;但在LiveBrowseComp上跳到了37.6分,超過了多個在BrowseComp上領先它的模型。這種排名錯位恰好印證了IKD的邏輯:在BrowseComp上領先是因為記憶覆蓋面廣,而記憶面寬不等於搜索能力強。
模型間的分差也明顯收窄了。開源模型在BrowseComp上頭尾差距是16.6分,在LiveBrowseComp上只剩10.3分。這說明IKD在放大模型差異方面起到了很大的作用——當記憶覆蓋面的差異消除之後,真正反映搜索策略優劣的差異要小得多。
從搜索行為的維度來看,在BrowseComp上存在一個明顯的"速解峰":大量問題在極少幾步搜索之內就被答出來了,這與前文描述的"快速記憶驗證"模式完全一致。但在LiveBrowseComp上,這個速解峰幾乎消失,分布明顯向更多搜索步數的方向移動,說明當AI無法依賴記憶時,它確實需要更長時間、更多步驟的真實探索,而不是簡單的確認。
研究團隊還做了BrowseComp和LiveBrowseComp之間的相關性分析。兩個都是靜態基準的BrowseComp和BrowseComp-ZH之間,Spearman秩相關係數高達0.87,Pearson相關係數為0.79,說明在兩個類似的測試上排名高度穩定。但BrowseComp和LiveBrowseComp之間,這兩個數字分別降到了0.74和0.53。這意味著從一個靜態基準的排名無法可靠地預測在真實搜索能力測試中的排名——靜態榜單的位置,有相當一部分反映的是知識記憶的廣度,而不是資訊發現的能力。
說到底,這項研究揭示的是一個系統性的評測盲區:當AI的知識庫足夠大時,那些聲稱"必須搜索才能回答"的題目,其實已經悄悄變成了考察記憶的題目。AI在這類題目上的高分,有相當大的比例來自於把記憶當搜索來用——先在腦子裡生成一個答案,再上網確認一下,如果搜到了支持證據就提交,如果沒搜到就更亂了陣腳。這種行為模式在題目覆蓋面和AI知識面高度重疊的情況下看起來效果不錯,但一旦題目真正要求AI去發現它尚不知道的資訊,整個搜索循環就會失靈。
LiveBrowseComp的價值正在於此:它是一個動態更新的、時間鎖定的評測基準,專門用來測量那個更重要的問題——當AI確實不知道答案時,它能通過搜索找到嗎?目前的答案並不樂觀,但至少我們現在有了一個真正能看清楚這個問題的評測工具。對AI評測感興趣的讀者,可以通過arXiv編號2605.28721查閱完整論文,數據集也已公開發布在Hugging Face平台。一個值得繼續追問的問題是:如果我們真的要訓練出能夠真正"發現"而非僅僅"確認"的AI搜索代理,訓練信號應該長什麼樣子?
Q&A
Q1:什麼是"內在知識依賴"(IKD),它對AI搜索代理評測有什麼影響?
A:內在知識依賴(IKD)是指AI搜索代理在回答問題時,實際上是先從自身的訓練記憶中生成一個猜測性答案,然後再利用搜索工具去尋找支持這個答案的證據,而不是真正通過搜索發現新資訊。這種行為模式在靜態評測基準中很難被發現,因為只要AI的記憶足夠廣博,它就能在不真正搜索的情況下答對很多題目,導致評測分數虛高,無法真實反映AI的搜索發現能力。
Q2:LiveBrowseComp是如何防止AI通過記憶作答的?
A:LiveBrowseComp要求所有題目的答案必須依賴於基準構建之前90天內才發布的新鮮事實,僅憑更早的資訊無法回答。題目來源於六個持續更新的資料庫,並經過時間過濾、長尾冷僻度過濾和答案穩定性過濾三重篩選,專門選取曝光度低、尚未被AI吸收進訓練數據的事件,從而堵死記憶捷徑,迫使AI真正依賴搜索來作答。
Q3:AI模型在LiveBrowseComp上的表現比BrowseComp差多少,排名有沒有變化?
A:在LiveBrowseComp上,所有模型不用工具裸答的準確率全部低於2%,而在BrowseComp上裸答能達到20%至44%。加上搜索工具後,各模型得分普遍下降25到40分。排名也發生了明顯變化,例如GLM 5.1在BrowseComp上領先所有開源模型,但在LiveBrowseComp上跌至末位;而BrowseComp墊底的DeepSeek v3.2在LiveBrowseComp上反而超越了多個原本排在它前面的模型,說明靜態榜單排名無法可靠預測真實搜索能力。






