宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

當AI探員遇上「大海撈針」:滑鐵盧大學等機構提出的新型檢索方案,如何讓智能搜索既快又省錢?

2026年06月12日 首頁 » 熱門科技

這項由滑鐵盧大學、小米等機構研究人員共同完成的研究,以預印本形式於2026年6月5日發布在arXiv平台,論文編號為arXiv:2606.06880,研究方向屬於資訊檢索與人工智慧交叉領域。感興趣的讀者可通過該編號直接檢索完整論文。

**一、從圖書館員到偵探:AI搜索的身份轉變**

先從一個場景說起。你委託一位助理去圖書館幫你查一個極其冷僻的歷史問題——比如"1916年某位女性曾在街頭敲鐘宣傳她開辦的泥磚學校,她是誰?"這個助理有兩種工作方式。第一種,他跑進圖書館,迅速從書架上抽出五六本看起來相關的書,拍下幾頁內容遞給你,然後說"就看這些吧"。第二種,他拿到一個通行證,可以在整座圖書館裡自由穿行,翻開任何一本書,在書頁間來回比對,直到找到答案為止。

顯然,第二種方式更有可能找到答案。這正是近年來AI搜索領域正在經歷的一場根本性轉變——從"圖書館員"變成"偵探"。

傳統的AI搜索系統扮演的是圖書館員的角色:系統根據你的問題檢索出幾份文件,塞進AI的"視野"里,AI讀完這些內容後給出答案。這套方法學名叫做"檢索增強生成",是目前絕大多數AI問答系統的工作方式。它快,但有個致命弱點:如果答案不在那幾份被挑出來的文件里,你就徹底沒轍了。

而所謂"偵探模式",是讓AI直接在整個文件庫里自由探索,就像一個偵探可以翻遍案發現場的每個角落。在電腦科學的術語裡,這叫做"直接語料庫交互"(Direct Corpus Interaction,簡稱DCI)——AI通過類似於電腦命令行的工具,比如`grep`(一種在文件里搜索特定詞語的命令)和`cat`(查看文件內容的命令),在原始文件庫里自由穿梭。

這個"偵探模式"聽起來很美,但它有個嚴重問題:當案發現場從一個房間擴大到整座城市時,偵探就會迷路了。

**二、偵探在迷宮裡迷失了方向**

研究團隊在論文中引用了一個令人印象深刻的數字:當文件庫從10萬份文件擴大到20萬份時,AI偵探平均需要調用的工具次數從38.5次暴增到86.9次,耗時和成本翻倍,而答題準確率卻下降了13.6個百分點。當文件庫繼續擴大到40萬份時,準確率直接跌至37.5%,而且每100個問題里有20個根本無法在規定時間內完成。

這個現象背後的原因其實很直觀。`grep`這類命令就像是拿著手電筒在黑暗的圖書館裡找書——文件庫越大,掃描一遍所需的時間越長,AI偵探的大量精力都浪費在翻閱與答案毫不相關的內容上,等到它終於找到關鍵線索時,時間和預算已經耗盡了。

於是,研究團隊面對的問題變得非常清晰:如何給這位AI偵探劃定一個合理的"調查範圍",讓它既不像圖書館員那樣只能看幾份預先挑好的文件,又不像無頭蒼蠅一樣在整個文件庫里亂撞?

這個問題的答案,就是本篇論文提出的核心概念——**交互空間**(Interaction Space)。

**三、給偵探劃定案發現場:交互空間的兩個關鍵設計**

研究團隊給出了一個精妙的比喻框架,本文也將沿用這個框架來理解他們的方案。

以往的討論要麼讓AI偵探只能看警方提前準備好的"案件摘要"(傳統檢索),要麼讓偵探在整座城市裡自由行動(DCI)。研究團隊的核心主張是:應當給偵探劃定一個"案發現場封鎖區"——一個有明確邊界、但偵探可以在其中自由探索的空間。

這個"封鎖區"需要滿足兩個關鍵條件,缺一不可。

第一個條件是**邊界要由檢索系統來劃定**。封鎖區不能太大,否則偵探依然會迷路;也不能太小,否則關鍵證據可能被圈在外面。這個邊界必須是明確的、持久存在的,偵探可以反覆在其中穿行,而不是每次"詢問"系統後才臨時拼湊一個範圍。

第二個條件是**封鎖區裡的物證要經過整理**。放進封鎖區的文件不能是雜亂無章的原始狀態——就像一個真實案發現場,合格的偵探希望看到的不是堆在地上的一堆亂紙,而是已經被標註了"第3抽屜、第12頁、第3段有關鍵資訊"的有序檔案。換句話說,文件需要被預處理,讓偵探能快速定位到文件內部的具體位置,而不是每次都從頭讀到尾。

基於這兩個條件,研究團隊提出了他們的系統——**RISE**,全稱是**Retrieving Interaction SpacE**(檢索交互空間)。接下來我們詳細看看RISE是怎麼工作的。

**四、RISE的第一層設計:用BM25圈出"案發現場封鎖區"**

BM25是一種非常經典的文本檢索算法,歷史可以追溯到上世紀90年代,其工作原理類似於"詞頻統計"——哪份文件里出現了你搜索的關鍵詞,而且這些詞在整個文件庫里不太常見(說明它們更有區分度),那這份文件就更可能與你的問題相關。雖然BM25在技術上遠不如近年來基於深度學習的神經網路檢索方法"高端",但研究團隊有意選擇了這個簡單方案,原因後文會解釋。

RISE的工作流程從AI偵探向BM25發出搜索請求開始。偵探可以一次性提交多個相關子問題,BM25從整個文件庫中為每個子問題檢索出排名最靠前的1000份文件,然後將這些文件的並集(去重後通常在一萬份左右)統一放進一個專屬於這次查詢的工作目錄里。這個工作目錄就是"案發現場封鎖區"。

這個封鎖區有幾個重要特性。首先,它存在於AI的"視野"之外——不是把1萬份文件全部塞進AI的對話窗口(那根本放不下),而是以文件系統的形式存放在電腦的儲存空間裡,AI可以隨時通過`grep`、`cat`等命令去訪問。其次,AI每次執行新的搜索,結果會持續累積到這個工作目錄中,封鎖區會越來越完整,但從不會縮小——這就像案發現場的物證只會增加,不會莫名消失。第三,搜索返回給AI的直接反饋只是每個子問題的前10條預覽,但完整的1000條檢索結果都已悄悄存進了工作目錄,AI可以通過後續的命令行工具逐一探索。

這個設計的妙處在於:AI偵探不需要在問題問出的那一瞬間就把所有相關文件讀完——它可以先粗略掃描,發現線索後再精確定位。就像偵探到達案發現場後不會立刻把每件物品都細細研究,而是先環顧四周,確定方向,然後重點檢查最可疑的區域。

研究團隊將這個"只有BM25封鎖區、沒有文件預處理"的版本單獨命名為**RISE-BM25**,作為一個對比實驗的基準版本。這個版本只實現了兩個條件中的第一個。

**五、RISE的第二層設計:給每份檔案加上"導航地圖"**

現在封鎖區有了,但裡面的文件依然是原始的純文本——一篇幾千字的學術論文或歷史資料,偵探要找其中某個細節,還是需要從頭讀到尾。這就像雖然你把嫌疑人的全部檔案都搬進了審訊室,但每份檔案都是密密麻麻沒有任何標註的手寫文件。

RISE的第二層設計解決了這個問題:在將文件放入封鎖區之前,系統會在離線狀態下對每份文件進行一次預處理,給它加上一份**帶行號的目錄**(Table of Contents,簡稱TOC)。

這個預處理過程使用了OpenAI的一個小型AI模型(gpt-5.4-nano)來自動分析每份文件的結構,生成各章節的標題、描述和定位文字(錨點),然後由一段確定性程序在原文中精確定位這些錨點,並在文件開頭插入一份格式化的目錄,格式類似於"第22至47行:標題與摘要概述;第85至151行:研究方法與數據;第240至258行:結論與解釋;第259至265行:致謝與資訊來源"。

關鍵在於:這個預處理完全不修改原文內容,只是在前面加了一份導航地圖。就像在一本沒有目錄的厚書前面加上"第58頁:第一章,拿破崙的童年;第143頁:第三章,滑鐵盧戰役"——書的內容一字未動,但讀者找到自己需要的部分所需的時間從"逐頁翻找"變成了"直接翻到那一頁"。

研究團隊在10萬份文件上運行了這個流程,成功率非常高:99.3%的章節錨點能被精確定位,94.5%的文件至少生成了一條有效的目錄條目,整個流程沒有任何文件處理失敗。每份文件的預處理成本約為0.0014美元,是一次性的離線工作,不影響查詢時的實時性能。

**六、在"封鎖區"里破案:AI偵探的實際工作流程**

現在RISE的兩層設計都就位了,AI偵探是怎麼工作的?研究團隊提供了兩個具體案例,非常生動地展示了這套系統的運作方式。

第一個案例來自RISE-BM25版本(只有封鎖區、沒有TOC預處理)。問題是這樣的:"1916年某位女性開辦了一所日間學校,她曾走在街上敲鐘宣傳那所泥磚建造的學校,她是誰?"注意,答案中的人名完全沒有出現在問題里,AI根本不知道自己要找誰。

面對這個問題,AI偵探沒有直接去搜索答案,而是把問題分解成了15個不同角度的子問題,分五次提交給BM25。這些子問題分別從"110年前"、"火災後重開於1970年代"、"在大火前開業"、"走在街上敲鐘"、"1916年"等不同線索出發,每次搜索都把相關文件拉入封鎖區,最終積累了6158份文件。然後,AI用`rg`命令(一種高效的文本搜索工具)在封鎖區里同時搜索"泥磚"、"鐘聲"、"1916"、"火災"、"重開"等關鍵詞,在兩份文件(一份關於某教堂歷史,一份關於克倫斯塔德教區歷史)中發現了關鍵線索,最終確認答案是"Sister Mary Theresa Dawkins"。整個過程只花了8輪對話、0.06美元。

第二個案例展示了TOC預處理的威力。問題是:"找到一篇2010年代發表的論文,其致謝部分感謝了一位領導統計中心的名譽教授,請問這篇論文發表在哪個期刊?"

AI偵探通過一次搜索把相關文件拉入封鎖區,然後打開一份候選論文的開頭,看到了TOC:目錄告訴它"第259至265行:致謝與資訊來源"。AI沒有讀完這篇論文,直接跳到第259行開始閱讀——那裡寫著對某統計中心名譽教授E. Jaba的感謝,完全符合題目線索。再往前看文件頭部,論文所在期刊名稱"Romanian Statistical Review"赫然在目。整個過程6輪對話,4次文件讀取中有兩次是直接跳到TOC指定的行號,沒有任何無效的從頭到尾掃描。

這兩個案例形象地展示了RISE的"分工":BM25負責圈定封鎖區,AI偵探在封鎖區里用命令行工具進行精確排查,而TOC則讓偵探能直接翻到文件的關鍵頁碼,避免逐行閱讀的低效。

**七、實驗結果:在真實測試中,這套方案表現如何?**

研究團隊用一個叫做BrowseComp-Plus的測試集來評估各種方案的表現。這個測試集的特點是問題非常難,全都是那種需要深度挖掘才能找到答案的"偵探級"問題,而且答案就藏在一個固定的文件庫里(而不是依賴實時網際網路搜索),這樣不同方案的比較才公平。實驗中,研究團隊從這個測試集裡隨機抽取了100個問題進行評估。

實驗對比了四套方案:完整的RISE(兩層設計都有)、只有封鎖區的RISE-BM25、傳統的"摘要檢索+文檔獲取"方案(稱為retrieval-agent),以及完全無邊界的DCI原始方案。同時,研究團隊還測試了三種不同檔次的AI模型——Xiaomi的mimo-v2.5-pro、OpenAI的gpt-5.4-mini(中等推理強度)和gpt-5.4-nano(高推理強度)。

在公平起見的設計上,研究團隊刻意給了DCI更寬鬆的預算:DCI允許調用300次AI接口、使用1.5小時的時間,而RISE只允許100次調用和1小時時間。也就是說,DCI獲得了3倍的接口調用次數和1.5倍的時間預算,任何有利於DCI的結果都是在這個"讓步"條件下取得的。

結果如何?在中檔模型gpt-5.4-mini上,RISE以78%的準確率與DCI持平,但每次查詢的成本是0.28美元,而DCI是1.10美元——前者是後者的四分之一。在高檔模型mimo-v2.5-pro上,RISE同樣達到78%準確率,成本僅0.38美元;而DCI只有60%準確率,成本0.52美元,而且100個問題里有18個因為超時而沒有給出答案。在低檔模型gpt-5.4-nano上,DCI以71%的準確率領先,這是DCI表現最好的情況,但成本是0.20美元,而RISE只需0.05美元。

傳統的摘要檢索方案(retrieval-agent)在兩個較大模型上都比RISE低約5到10個百分點,儘管它找到相關文件的能力和RISE差不多(兩者的BM25召回率相近)。這說明問題不在於找不到文件,而在於找到文件之後,傳統方案只把很少的內容真正"送到"AI面前——它把文件截成512字符的短片段再交給AI,大量有價值的內容在截取時就已經丟失了。

此外,研究團隊還專門用最強的gpt-5.4模型測試了RISE,得到了82%的準確率,是所有配置中最高的,而且該模型在封鎖區內"覆蓋"到金標準文件的比率高達92.4%。這說明隨著AI模型能力的提升,RISE的框架能持續受益,上限還遠未觸及。

**八、擴大十倍後的壓力測試:當文件庫膨脹到百萬級別**

評估系統在"大海"里撈針的能力,不能只看小魚塘里的表現。研究團隊將文件庫從10萬份擴大到100萬份(在原有文件庫里加入了90萬份來自FineWeb-Edu數據集的干擾文件),再次進行評估。

結果非常能說明問題。RISE-BM25不僅沒有因文件庫擴大而退步,反而還略有提升:mimo-v2.5-pro從75%升至83%,gpt-5.4-mini從77%升至81%,gpt-5.4-nano從64%升至65%。研究團隊對這個小幅提升持謹慎態度,認為可能是更多文件讓BM25的詞頻統計參數更為合理,或者新加入的文件里恰好有部分與問題相關但沒被標註為"金標準"的內容。不管原因如何,關鍵結論是:文件庫擴大10倍,RISE-BM25的表現沒有崩潰。

與之形成鮮明對比的是DCI和傳統摘要檢索。DCI在低檔模型nano上從71%直接跌至60%,而且100個問題里有33個因為超時而徹底沒有答案——注意,超時的查詢往往在等待全庫掃描命令的過程中消耗了大量時間,最終什麼都沒查出來,但賬單上顯示的API費用反而更低(因為超時後調用次數少了)。這種"低成本但零結果"的情況,正是DCI在大規模場景下的典型失效模式。傳統摘要檢索方案在mime和nano檔模型上也有所下滑,表現始終不如RISE-BM25。

研究團隊也坦誠地說明了100萬文件測試中RISE(完整版,含TOC預處理)沒有參與:因為對新增的90萬份文件運行TOC預處理需要額外的費用和時間,而這次實驗預算不允許,所以100萬文件的測試僅代表"有封鎖區、無TOC預處理"的RISE-BM25版本。這是工程預算的限制,並不是RISE系統本身的架構障礙。

**九、BM25檢索數量K:多大的封鎖區才合適?**

研究團隊還測試了一個實際使用中很重要的參數:每個子問題從文件庫里檢索出多少份文件放進封鎖區?他們分別測試了每個子問題檢索100份、1000份(默認值)、10000份三種設置。

結果顯示,檢索數量和準確率之間的關係並不是"越多越好"。在mimo模型上,K=100時準確率反而是最高的(76%),K=1000時為75%,K=10000時降至73%。在mini模型上,K=1000是最優的(77%),略高於K=100的75%和K=10000的75%。在nano模型上,三種設置相差無幾(64%、64%、65%)。

這個結果背後的邏輯是:封鎖區裡的文件越多,AI偵探需要用命令行工具篩查的範圍就越大,效率反而降低。K=1000時,積累的工作目錄通常在7600到10400份文件之間,這個規模下命令行操作依然很快;K=10000時,工作目錄膨脹到四五萬份文件,操作明顯變慢,卻沒帶來更高的準確率。這說明RISE的核心邏輯在起作用:封鎖區需要的是"足夠召回相關文件",而非"儘可能多地包含文件"。

順便一提,改變K值對AI的接口調用費用幾乎沒有影響,因為額外的文件只是默默地加入工作目錄,並不直接進入AI的對話窗口。K值主要影響的是本地命令行操作的速度,而不是AI的賬單。

**十、局限性和未來空間**

研究團隊在論文結尾非常坦率地列出了這項研究的不足之處,值得一併介紹。

目前RISE使用的是BM25這種經典的詞頻檢索方法來劃定封鎖區,而更先進的密集向量檢索、晚期交互檢索等方法能否帶來更好的效果,還沒有經過驗證。研究團隊選擇BM25是為了把"檢索器的質量"和"交互空間框架本身"的貢獻分開討論,但這也意味著實驗結果在檢索技術上有進一步提升的空間。

TOC預處理的效果只在10萬份文件的規模上得到了驗證,100萬文件規模下它能否同樣有效,目前還缺乏直接證據。理論上沒有障礙,但實驗沒有覆蓋到這個規模。

評估的範圍也相對有限:只用了BrowseComp-Plus這一個基準測試集,只評估了100個問題,只使用了封閉權重的AI模型,而且評判結果正確與否所使用的AI裁判(gpt-5.1)和實驗中使用的部分AI模型來自同一家公司,這在一定程度上存在潛在的評估偏差風險。幾個百分點的準確率差異應當被理解為"趨勢性結論"而非"精確量化"。

此外,有一個"第四個角落"的實驗缺口:如果把TOC預處理後的文件用於傳統摘要檢索方式(而非封鎖區方式),效果如何?這個對比沒有做,因此目前還不能完全把"封鎖區界面"和"BM25預篩選"的貢獻徹底分離。

---

歸根結底,這項研究想說的是一件非常樸實的事:AI搜索代理需要的既不是一疊精選好的文件摘要,也不是一座可以隨意進出的無邊界圖書館,而是一個有圍牆的院子——院子的大小由檢索系統來定,院子裡的每樣東西都被貼好標籤,方便AI偵探迅速找到需要的那頁紙。RISE正是對這個想法的一次具體實現,而實驗結果表明,這個看起來不那麼"高科技"的方案,在成本和準確率的平衡上,確實超過了更暴力的"全庫掃描"方式。

隨著文件庫規模持續擴大、AI模型能力持續增強,這項研究提出的框架性問題——"檢索系統應該返回什麼格式的結果給AI代理?"——可能比任何具體技術實現都更值得關注。目前的資訊檢索基準測試大多是為"給人看的排名列表"設計的,並不適合評估"給AI偵探用的交互空間",這或許是這個領域接下來需要認真思考的方向。有興趣深入了解的讀者,可通過arXiv編號2606.06880查閱完整論文。

---

**Q&A**

Q1:RISE和傳統RAG檢索方式有什麼本質區別?

A:傳統RAG把文件截成短片段塞進AI對話窗口,AI只能看到那幾段內容。RISE則是通過BM25檢索出一批文件存入獨立工作目錄,AI可以用命令行工具反覆探索,隨時查看文件的任意部分,不受對話窗口大小的限制,更像是給了AI一個可以自由翻閱的文件櫃,而不是幾張提前抄好的卡片。

Q2:BM25這麼老的技術,為什麼在RISE里還能有效果?

A:BM25雖然是上世紀90年代的技術,但它的關鍵作用不是精確排名,而是"圈出範圍"。只要相關文件出現在檢索的1000份結果里(召回率夠高),AI就能在後續的命令行探索中找到答案。實驗顯示BM25的召回率在75%到88%之間,足夠支撐AI偵探在封鎖區里完成推理,而且計算速度極快,適合構建實時交互的工作目錄。

Q3:RISE處理100萬份文件時為什麼準確率反而略有提升?

A:研究團隊認為有兩種可能的解釋。一是新增的90萬份文件讓BM25的詞頻統計參數(即IDF值)更加合理,使得檢索結果更準確地匹配AI提交的搜索查詢。二是新增文件中可能本身就有與問題相關的內容,只是沒有被標註為"官方金標準答案"。不管哪種原因,關鍵結論是文件庫擴大10倍後系統沒有性能崩潰,這與DCI在同等條件下準確率下降11個百分點的表現形成了明顯對比。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新