當AI探員遇上「大海撈針」：滑鐵盧大學等機構提出的新型檢索方案，如何讓智能搜索既快又省錢？

這項由滑鐵盧大學、小米等機構研究人員共同完成的研究，以預印本形式於2026年6月5日發布在arXiv平台，論文編號為arXiv:2606.06880，研究方向屬於資訊檢索與人工智慧交叉領域。感興趣的讀者可通過該編號直接檢索完整論文。

贊助商廣告

**一、從圖書館員到偵探：AI搜索的身份轉變**

先從一個場景說起。你委託一位助理去圖書館幫你查一個極其冷僻的歷史問題——比如"1916年某位女性曾在街頭敲鐘宣傳她開辦的泥磚學校，她是誰？"這個助理有兩種工作方式。第一種，他跑進圖書館，迅速從書架上抽出五六本看起來相關的書，拍下幾頁內容遞給你，然後說"就看這些吧"。第二種，他拿到一個通行證，可以在整座圖書館裡自由穿行，翻開任何一本書，在書頁間來回比對，直到找到答案為止。

顯然，第二種方式更有可能找到答案。這正是近年來AI搜索領域正在經歷的一場根本性轉變——從"圖書館員"變成"偵探"。

傳統的AI搜索系統扮演的是圖書館員的角色：系統根據你的問題檢索出幾份文件，塞進AI的"視野"里，AI讀完這些內容後給出答案。這套方法學名叫做"檢索增強生成"，是目前絕大多數AI問答系統的工作方式。它快，但有個致命弱點：如果答案不在那幾份被挑出來的文件里，你就徹底沒轍了。

而所謂"偵探模式"，是讓AI直接在整個文件庫里自由探索，就像一個偵探可以翻遍案發現場的每個角落。在電腦科學的術語裡，這叫做"直接語料庫交互"（Direct Corpus Interaction，簡稱DCI）——AI通過類似於電腦命令行的工具，比如`grep`（一種在文件里搜索特定詞語的命令）和`cat`（查看文件內容的命令），在原始文件庫里自由穿梭。

這個"偵探模式"聽起來很美，但它有個嚴重問題：當案發現場從一個房間擴大到整座城市時，偵探就會迷路了。

**二、偵探在迷宮裡迷失了方向**

研究團隊在論文中引用了一個令人印象深刻的數字：當文件庫從10萬份文件擴大到20萬份時，AI偵探平均需要調用的工具次數從38.5次暴增到86.9次，耗時和成本翻倍，而答題準確率卻下降了13.6個百分點。當文件庫繼續擴大到40萬份時，準確率直接跌至37.5%，而且每100個問題里有20個根本無法在規定時間內完成。

贊助商廣告

這個現象背後的原因其實很直觀。`grep`這類命令就像是拿著手電筒在黑暗的圖書館裡找書——文件庫越大，掃描一遍所需的時間越長，AI偵探的大量精力都浪費在翻閱與答案毫不相關的內容上，等到它終於找到關鍵線索時，時間和預算已經耗盡了。

於是，研究團隊面對的問題變得非常清晰：如何給這位AI偵探劃定一個合理的"調查範圍"，讓它既不像圖書館員那樣只能看幾份預先挑好的文件，又不像無頭蒼蠅一樣在整個文件庫里亂撞？

這個問題的答案，就是本篇論文提出的核心概念——**交互空間**（Interaction Space）。

**三、給偵探劃定案發現場：交互空間的兩個關鍵設計**

研究團隊給出了一個精妙的比喻框架，本文也將沿用這個框架來理解他們的方案。

以往的討論要麼讓AI偵探只能看警方提前準備好的"案件摘要"（傳統檢索），要麼讓偵探在整座城市裡自由行動（DCI）。研究團隊的核心主張是：應當給偵探劃定一個"案發現場封鎖區"——一個有明確邊界、但偵探可以在其中自由探索的空間。

這個"封鎖區"需要滿足兩個關鍵條件，缺一不可。

第一個條件是**邊界要由檢索系統來劃定**。封鎖區不能太大，否則偵探依然會迷路；也不能太小，否則關鍵證據可能被圈在外面。這個邊界必須是明確的、持久存在的，偵探可以反覆在其中穿行，而不是每次"詢問"系統後才臨時拼湊一個範圍。

第二個條件是**封鎖區裡的物證要經過整理**。放進封鎖區的文件不能是雜亂無章的原始狀態——就像一個真實案發現場，合格的偵探希望看到的不是堆在地上的一堆亂紙，而是已經被標註了"第3抽屜、第12頁、第3段有關鍵資訊"的有序檔案。換句話說，文件需要被預處理，讓偵探能快速定位到文件內部的具體位置，而不是每次都從頭讀到尾。

基於這兩個條件，研究團隊提出了他們的系統——**RISE**，全稱是**Retrieving Interaction SpacE**（檢索交互空間）。接下來我們詳細看看RISE是怎麼工作的。

贊助商廣告

**四、RISE的第一層設計：用BM25圈出"案發現場封鎖區"**

BM25是一種非常經典的文本檢索算法，歷史可以追溯到上世紀90年代，其工作原理類似於"詞頻統計"——哪份文件里出現了你搜索的關鍵詞，而且這些詞在整個文件庫里不太常見（說明它們更有區分度），那這份文件就更可能與你的問題相關。雖然BM25在技術上遠不如近年來基於深度學習的神經網路檢索方法"高端"，但研究團隊有意選擇了這個簡單方案，原因後文會解釋。

RISE的工作流程從AI偵探向BM25發出搜索請求開始。偵探可以一次性提交多個相關子問題，BM25從整個文件庫中為每個子問題檢索出排名最靠前的1000份文件，然後將這些文件的並集（去重後通常在一萬份左右）統一放進一個專屬於這次查詢的工作目錄里。這個工作目錄就是"案發現場封鎖區"。

這個封鎖區有幾個重要特性。首先，它存在於AI的"視野"之外——不是把1萬份文件全部塞進AI的對話窗口（那根本放不下），而是以文件系統的形式存放在電腦的儲存空間裡，AI可以隨時通過`grep`、`cat`等命令去訪問。其次，AI每次執行新的搜索，結果會持續累積到這個工作目錄中，封鎖區會越來越完整，但從不會縮小——這就像案發現場的物證只會增加，不會莫名消失。第三，搜索返回給AI的直接反饋只是每個子問題的前10條預覽，但完整的1000條檢索結果都已悄悄存進了工作目錄，AI可以通過後續的命令行工具逐一探索。

這個設計的妙處在於：AI偵探不需要在問題問出的那一瞬間就把所有相關文件讀完——它可以先粗略掃描，發現線索後再精確定位。就像偵探到達案發現場後不會立刻把每件物品都細細研究，而是先環顧四周，確定方向，然後重點檢查最可疑的區域。

研究團隊將這個"只有BM25封鎖區、沒有文件預處理"的版本單獨命名為**RISE-BM25**，作為一個對比實驗的基準版本。這個版本只實現了兩個條件中的第一個。

贊助商廣告

**五、RISE的第二層設計：給每份檔案加上"導航地圖"**

現在封鎖區有了，但裡面的文件依然是原始的純文本——一篇幾千字的學術論文或歷史資料，偵探要找其中某個細節，還是需要從頭讀到尾。這就像雖然你把嫌疑人的全部檔案都搬進了審訊室，但每份檔案都是密密麻麻沒有任何標註的手寫文件。

RISE的第二層設計解決了這個問題：在將文件放入封鎖區之前，系統會在離線狀態下對每份文件進行一次預處理，給它加上一份**帶行號的目錄**（Table of Contents，簡稱TOC）。

這個預處理過程使用了OpenAI的一個小型AI模型（gpt-5.4-nano）來自動分析每份文件的結構，生成各章節的標題、描述和定位文字（錨點），然後由一段確定性程序在原文中精確定位這些錨點，並在文件開頭插入一份格式化的目錄，格式類似於"第22至47行：標題與摘要概述；第85至151行：研究方法與數據；第240至258行：結論與解釋；第259至265行：致謝與資訊來源"。

關鍵在於：這個預處理完全不修改原文內容，只是在前面加了一份導航地圖。就像在一本沒有目錄的厚書前面加上"第58頁：第一章，拿破崙的童年；第143頁：第三章，滑鐵盧戰役"——書的內容一字未動，但讀者找到自己需要的部分所需的時間從"逐頁翻找"變成了"直接翻到那一頁"。

研究團隊在10萬份文件上運行了這個流程，成功率非常高：99.3%的章節錨點能被精確定位，94.5%的文件至少生成了一條有效的目錄條目，整個流程沒有任何文件處理失敗。每份文件的預處理成本約為0.0014美元，是一次性的離線工作，不影響查詢時的實時性能。

**六、在"封鎖區"里破案：AI偵探的實際工作流程**

現在RISE的兩層設計都就位了，AI偵探是怎麼工作的？研究團隊提供了兩個具體案例，非常生動地展示了這套系統的運作方式。

第一個案例來自RISE-BM25版本（只有封鎖區、沒有TOC預處理）。問題是這樣的："1916年某位女性開辦了一所日間學校，她曾走在街上敲鐘宣傳那所泥磚建造的學校，她是誰？"注意，答案中的人名完全沒有出現在問題里，AI根本不知道自己要找誰。

贊助商廣告

面對這個問題，AI偵探沒有直接去搜索答案，而是把問題分解成了15個不同角度的子問題，分五次提交給BM25。這些子問題分別從"110年前"、"火災後重開於1970年代"、"在大火前開業"、"走在街上敲鐘"、"1916年"等不同線索出發，每次搜索都把相關文件拉入封鎖區，最終積累了6158份文件。然後，AI用`rg`命令（一種高效的文本搜索工具）在封鎖區里同時搜索"泥磚"、"鐘聲"、"1916"、"火災"、"重開"等關鍵詞，在兩份文件（一份關於某教堂歷史，一份關於克倫斯塔德教區歷史）中發現了關鍵線索，最終確認答案是"Sister Mary Theresa Dawkins"。整個過程只花了8輪對話、0.06美元。

第二個案例展示了TOC預處理的威力。問題是："找到一篇2010年代發表的論文，其致謝部分感謝了一位領導統計中心的名譽教授，請問這篇論文發表在哪個期刊？"

AI偵探通過一次搜索把相關文件拉入封鎖區，然後打開一份候選論文的開頭，看到了TOC：目錄告訴它"第259至265行：致謝與資訊來源"。AI沒有讀完這篇論文，直接跳到第259行開始閱讀——那裡寫著對某統計中心名譽教授E. Jaba的感謝，完全符合題目線索。再往前看文件頭部，論文所在期刊名稱"Romanian Statistical Review"赫然在目。整個過程6輪對話，4次文件讀取中有兩次是直接跳到TOC指定的行號，沒有任何無效的從頭到尾掃描。

這兩個案例形象地展示了RISE的"分工"：BM25負責圈定封鎖區，AI偵探在封鎖區里用命令行工具進行精確排查，而TOC則讓偵探能直接翻到文件的關鍵頁碼，避免逐行閱讀的低效。

**七、實驗結果：在真實測試中，這套方案表現如何？**

研究團隊用一個叫做BrowseComp-Plus的測試集來評估各種方案的表現。這個測試集的特點是問題非常難，全都是那種需要深度挖掘才能找到答案的"偵探級"問題，而且答案就藏在一個固定的文件庫里（而不是依賴實時網際網路搜索），這樣不同方案的比較才公平。實驗中，研究團隊從這個測試集裡隨機抽取了100個問題進行評估。

贊助商廣告

實驗對比了四套方案：完整的RISE（兩層設計都有）、只有封鎖區的RISE-BM25、傳統的"摘要檢索+文檔獲取"方案（稱為retrieval-agent），以及完全無邊界的DCI原始方案。同時，研究團隊還測試了三種不同檔次的AI模型——Xiaomi的mimo-v2.5-pro、OpenAI的gpt-5.4-mini（中等推理強度）和gpt-5.4-nano（高推理強度）。

在公平起見的設計上，研究團隊刻意給了DCI更寬鬆的預算：DCI允許調用300次AI接口、使用1.5小時的時間，而RISE只允許100次調用和1小時時間。也就是說，DCI獲得了3倍的接口調用次數和1.5倍的時間預算，任何有利於DCI的結果都是在這個"讓步"條件下取得的。

結果如何？在中檔模型gpt-5.4-mini上，RISE以78%的準確率與DCI持平，但每次查詢的成本是0.28美元，而DCI是1.10美元——前者是後者的四分之一。在高檔模型mimo-v2.5-pro上，RISE同樣達到78%準確率，成本僅0.38美元；而DCI只有60%準確率，成本0.52美元，而且100個問題里有18個因為超時而沒有給出答案。在低檔模型gpt-5.4-nano上，DCI以71%的準確率領先，這是DCI表現最好的情況，但成本是0.20美元，而RISE只需0.05美元。

傳統的摘要檢索方案（retrieval-agent）在兩個較大模型上都比RISE低約5到10個百分點，儘管它找到相關文件的能力和RISE差不多（兩者的BM25召回率相近）。這說明問題不在於找不到文件，而在於找到文件之後，傳統方案只把很少的內容真正"送到"AI面前——它把文件截成512字符的短片段再交給AI，大量有價值的內容在截取時就已經丟失了。

此外，研究團隊還專門用最強的gpt-5.4模型測試了RISE，得到了82%的準確率，是所有配置中最高的，而且該模型在封鎖區內"覆蓋"到金標準文件的比率高達92.4%。這說明隨著AI模型能力的提升，RISE的框架能持續受益，上限還遠未觸及。

**八、擴大十倍後的壓力測試：當文件庫膨脹到百萬級別**

評估系統在"大海"里撈針的能力，不能只看小魚塘里的表現。研究團隊將文件庫從10萬份擴大到100萬份（在原有文件庫里加入了90萬份來自FineWeb-Edu數據集的干擾文件），再次進行評估。

贊助商廣告

結果非常能說明問題。RISE-BM25不僅沒有因文件庫擴大而退步，反而還略有提升：mimo-v2.5-pro從75%升至83%，gpt-5.4-mini從77%升至81%，gpt-5.4-nano從64%升至65%。研究團隊對這個小幅提升持謹慎態度，認為可能是更多文件讓BM25的詞頻統計參數更為合理，或者新加入的文件里恰好有部分與問題相關但沒被標註為"金標準"的內容。不管原因如何，關鍵結論是：文件庫擴大10倍，RISE-BM25的表現沒有崩潰。

與之形成鮮明對比的是DCI和傳統摘要檢索。DCI在低檔模型nano上從71%直接跌至60%，而且100個問題里有33個因為超時而徹底沒有答案——注意，超時的查詢往往在等待全庫掃描命令的過程中消耗了大量時間，最終什麼都沒查出來，但賬單上顯示的API費用反而更低（因為超時後調用次數少了）。這種"低成本但零結果"的情況，正是DCI在大規模場景下的典型失效模式。傳統摘要檢索方案在mime和nano檔模型上也有所下滑，表現始終不如RISE-BM25。

研究團隊也坦誠地說明了100萬文件測試中RISE（完整版，含TOC預處理）沒有參與：因為對新增的90萬份文件運行TOC預處理需要額外的費用和時間，而這次實驗預算不允許，所以100萬文件的測試僅代表"有封鎖區、無TOC預處理"的RISE-BM25版本。這是工程預算的限制，並不是RISE系統本身的架構障礙。

**九、BM25檢索數量K：多大的封鎖區才合適？**

研究團隊還測試了一個實際使用中很重要的參數：每個子問題從文件庫里檢索出多少份文件放進封鎖區？他們分別測試了每個子問題檢索100份、1000份（默認值）、10000份三種設置。

結果顯示，檢索數量和準確率之間的關係並不是"越多越好"。在mimo模型上，K=100時準確率反而是最高的（76%），K=1000時為75%，K=10000時降至73%。在mini模型上，K=1000是最優的（77%），略高於K=100的75%和K=10000的75%。在nano模型上，三種設置相差無幾（64%、64%、65%）。

贊助商廣告

這個結果背後的邏輯是：封鎖區裡的文件越多，AI偵探需要用命令行工具篩查的範圍就越大，效率反而降低。K=1000時，積累的工作目錄通常在7600到10400份文件之間，這個規模下命令行操作依然很快；K=10000時，工作目錄膨脹到四五萬份文件，操作明顯變慢，卻沒帶來更高的準確率。這說明RISE的核心邏輯在起作用：封鎖區需要的是"足夠召回相關文件"，而非"儘可能多地包含文件"。

順便一提，改變K值對AI的接口調用費用幾乎沒有影響，因為額外的文件只是默默地加入工作目錄，並不直接進入AI的對話窗口。K值主要影響的是本地命令行操作的速度，而不是AI的賬單。

**十、局限性和未來空間**

研究團隊在論文結尾非常坦率地列出了這項研究的不足之處，值得一併介紹。

目前RISE使用的是BM25這種經典的詞頻檢索方法來劃定封鎖區，而更先進的密集向量檢索、晚期交互檢索等方法能否帶來更好的效果，還沒有經過驗證。研究團隊選擇BM25是為了把"檢索器的質量"和"交互空間框架本身"的貢獻分開討論，但這也意味著實驗結果在檢索技術上有進一步提升的空間。

TOC預處理的效果只在10萬份文件的規模上得到了驗證，100萬文件規模下它能否同樣有效，目前還缺乏直接證據。理論上沒有障礙，但實驗沒有覆蓋到這個規模。

評估的範圍也相對有限：只用了BrowseComp-Plus這一個基準測試集，只評估了100個問題，只使用了封閉權重的AI模型，而且評判結果正確與否所使用的AI裁判（gpt-5.1）和實驗中使用的部分AI模型來自同一家公司，這在一定程度上存在潛在的評估偏差風險。幾個百分點的準確率差異應當被理解為"趨勢性結論"而非"精確量化"。

此外，有一個"第四個角落"的實驗缺口：如果把TOC預處理後的文件用於傳統摘要檢索方式（而非封鎖區方式），效果如何？這個對比沒有做，因此目前還不能完全把"封鎖區界面"和"BM25預篩選"的貢獻徹底分離。

贊助商廣告

---

歸根結底，這項研究想說的是一件非常樸實的事：AI搜索代理需要的既不是一疊精選好的文件摘要，也不是一座可以隨意進出的無邊界圖書館，而是一個有圍牆的院子——院子的大小由檢索系統來定，院子裡的每樣東西都被貼好標籤，方便AI偵探迅速找到需要的那頁紙。RISE正是對這個想法的一次具體實現，而實驗結果表明，這個看起來不那麼"高科技"的方案，在成本和準確率的平衡上，確實超過了更暴力的"全庫掃描"方式。

隨著文件庫規模持續擴大、AI模型能力持續增強，這項研究提出的框架性問題——"檢索系統應該返回什麼格式的結果給AI代理？"——可能比任何具體技術實現都更值得關注。目前的資訊檢索基準測試大多是為"給人看的排名列表"設計的，並不適合評估"給AI偵探用的交互空間"，這或許是這個領域接下來需要認真思考的方向。有興趣深入了解的讀者，可通過arXiv編號2606.06880查閱完整論文。

---

**Q&A**

Q1：RISE和傳統RAG檢索方式有什麼本質區別？

A：傳統RAG把文件截成短片段塞進AI對話窗口，AI只能看到那幾段內容。RISE則是通過BM25檢索出一批文件存入獨立工作目錄，AI可以用命令行工具反覆探索，隨時查看文件的任意部分，不受對話窗口大小的限制，更像是給了AI一個可以自由翻閱的文件櫃，而不是幾張提前抄好的卡片。

Q2：BM25這麼老的技術，為什麼在RISE里還能有效果？

A：BM25雖然是上世紀90年代的技術，但它的關鍵作用不是精確排名，而是"圈出範圍"。只要相關文件出現在檢索的1000份結果里（召回率夠高），AI就能在後續的命令行探索中找到答案。實驗顯示BM25的召回率在75%到88%之間，足夠支撐AI偵探在封鎖區里完成推理，而且計算速度極快，適合構建實時交互的工作目錄。

Q3：RISE處理100萬份文件時為什麼準確率反而略有提升？

A：研究團隊認為有兩種可能的解釋。一是新增的90萬份文件讓BM25的詞頻統計參數（即IDF值）更加合理，使得檢索結果更準確地匹配AI提交的搜索查詢。二是新增文件中可能本身就有與問題相關的內容，只是沒有被標註為"官方金標準答案"。不管哪種原因，關鍵結論是文件庫擴大10倍後系統沒有性能崩潰，這與DCI在同等條件下準確率下降11個百分點的表現形成了明顯對比。

贊助商廣告