這項由復旦大學、阿里巴巴達摩院、香港中文大學和斯坦福大學聯合開展的研究,發表於2026年6月,論文編號為arXiv:2606.16817v1,有興趣深入了解的讀者可以通過該編號查詢完整論文。
你有沒有注意到,當你在不同搜尋引擎上搜索同一個問題時,結果會有很大差異?在百度搜"蘋果手機哪款值得買",和在谷歌搜"iPhone which model worth buying",搜尋引擎"讀懂"你意圖的方式其實截然不同。現在,隨著AI助手越來越普遍地被用來幫我們查資料、回答問題,一個更深層的麻煩悄悄浮出水面:AI在幫你"查資料"之前,它需要先把你的問題"翻譯"成搜索詞——而不同的搜尋引擎,對於"好搜索詞"的定義,竟然大相徑庭。
這個研究團隊做的事情,就是第一次系統地研究這個問題:AI助手到底能不能學會"看人下菜碟",根據不同搜尋引擎的脾氣,用最合適的方式提問?
---
一、先搞清楚:AI助手是怎麼幫你"查資料"的?
要理解這個研究,得先弄清楚一件事:現在的AI助手回答問題,很多時候並不是單純靠自己"記憶"里存的知識,而是會先去外部資料庫里搜一搜,找到相關資料之後,再結合那些資料給你一個答案。這種模式叫做"檢索增強生成",可以理解為:AI先當偵探查案、搜集證據,再當律師綜合證據給出結論。
問題出在"查案"這個環節。當AI要去搜尋引擎里找相關文章時,它必須把用戶的問題改寫成一個"搜索詞"。而不同的搜尋引擎,工作原理完全不同——就好像有的圖書管理員擅長根據書名關鍵詞幫你找書,有的圖書管理員則更擅長根據你描述的故事內容來幫你定位書籍。如果你跟前者說"請幫我找一本關於中世紀騎士愛情故事的書",他可能一臉茫然;但如果你直接說"騎士 愛情 中世紀",他立刻就能幫你找到。
這個研究最核心的問題就是:AI能不能學會根據不同的"圖書管理員",用不同的方式說話?
---
二、四種"圖書管理員",脾氣各不相同
研究團隊選了四種有代表性的搜尋引擎(在這個領域叫"檢索器")作為研究對象,它們分別代表了完全不同的工作方式。
第一種叫BM25,是一種"關鍵詞專家"。它的工作原理是統計你的搜索詞在文章里出現了多少次、有多罕見。這種方式非常古老也非常實用,就像一個只認關鍵詞的圖書館索引系統——你告訴它"蘋果 手機 價格",它立刻幫你找所有同時包含這三個詞的文章;但如果你跟它說"我想了解一下最近這款手機的市場定價情況",它可能就有點不知所措了,因為你的話里沒有它能精準抓住的關鍵詞。
第二種叫Contriever,是一個有趣的"另類"。它是通過把同一篇維基百科文章里的兩段文字當作"一對好朋友"來訓練的——它認為,同一篇文章里前後出現的兩段內容,應該屬於相似的話題。這導致它有一個特別的癖好:它最喜歡那些"看起來像目標文章本身"的搜索詞。換句話說,你與其問它一個問題,不如直接生成一段類似答案文章風格的文字來搜索,它反而找得更准。
第三種和第四種是兩種現代"智能型"檢索器:all-MiniLM-L6-v2是一個小巧但經過大量標註數據訓練的模型,而Qwen3-Embedding則是體量更大、能力更強的新一代系統。這兩種都是通過理解語言的深層含義來匹配相關內容的,更接近人類的理解方式,對搜索詞的格式要求也更靈活。
---
三、用強化學習來"調教"AI的搜索習慣
研究團隊採用了一種叫做"強化學習"的訓練方法,這種方法的邏輯其實跟訓練寵物非常相似:每次AI把用戶的問題改寫成搜索詞,然後去對應的搜尋引擎里實際搜一搜——如果搜到了正確答案,就給它一個"獎勵分";如果搜偏了,就扣分。經過大量這樣的試錯和反饋,AI逐漸學會了什麼樣的改寫方式最能讓這個特定的搜尋引擎滿意。
具體來說,獎勵分的計算方式叫做nDCG@10,可以簡單理解為:不僅要找到正確答案,還要讓正確答案排在前面。畢竟在實際使用中,搜尋引擎給你返回十幾條結果,你只會認真看前幾條——如果正確答案排在第八位,對你來說幾乎等於沒找到。
訓練所用的底層框架叫GRPO,它的巧妙之處在於不需要一個額外的"裁判模型"來評分,系統自己通過比較同一批不同改寫方式的得分高低來判斷哪種方式更好,就像讓一群選手互相競爭,最終勝出者的策略就是最值得學習的。
這個框架在整個實驗中被應用於兩種場景:單輪檢索(問一次,找一次)和多輪檢索(第一次找不准,看看找到了什麼,再調整搜索詞繼續找)。
---
四、AI真的學到了各自的"方言"
實驗結果讓研究團隊頗為振奮。經過強化學習訓練後,AI在所有四種搜尋引擎上的表現都有了明顯提升。以Contriever為例,在RAGBench這個大型測試集上,平均檢索質量從45.5分提升到了56.5分;BM25從45.0分提升到了56.9分。這些提升在十多個不同領域的問題上都保持穩定,說明AI確實學到了一些有泛化能力的技巧,而不是單純死記硬背。
更有意思的是AI到底學到了什麼。研究團隊提供了一些生動的案例。當用戶問"God's Plan是誰寫的?",面對Contriever這個檢索器,AI沒有直接把問題變成搜索詞,而是寫了一段像維基百科文章一樣的段落:"《God's Plan》是加拿大說唱歌手Drake創作並製作的,於2018年發行,是他第五張專輯《Scorpion》的主打單曲,曾登頂Billboard Hot 100……"——用一段假設的目標文章來"釣魚",讓Contriever覺得這就是它要找的文章風格。
反之,當面對BM25檢索器時,同樣類型的問題,AI的改寫策略截然不同。對於"Dwyane Wade現在在哪個球隊打球"這個問題,AI沒有生成任何長篇大論,而是簡潔地輸出:"Dwyane Wade current team"——就是幾個精準的關鍵詞。AI甚至在思考過程中明確分析道:"BM25是一個基於關鍵詞的檢索系統,我需要確保這些關鍵詞都包含在內,'current team'比'play for right now'更可能在文章中出現……"
---
五、兩種檢索器之間的鴻溝,本質是"說話風格"的差異
研究團隊設計了一種叫做"RE-MMD"的指標,專門用來測量不同搜尋引擎所"偏好"的最優搜索詞之間的差距有多大。這個指標同時測量兩個維度:一是"語義漂移",也就是不同搜索詞是否在尋找不同的資訊?二是"結構漂移",也就是不同搜索詞的表達方式和文字風格差異有多大?
結果非常有說服力。語義漂移的數值普遍極低,基本都在2.0以下,說明不管面對哪個搜尋引擎,AI本質上在尋找同樣的資訊,它的"目標"沒有變。但結構漂移的數值就大得多,在關鍵詞型檢索器(BM25)和語義型檢索器(Contriever)之間,結構漂移值超過了20,比語義漂移高出一個數量級。
這個發現指出了一個很清晰的結論:針對一個搜尋引擎訓練出來的搜索策略,之所以無法直接用於另一個搜尋引擎,不是因為兩種策略在尋找不同的東西,而是因為它們說話的"方言"完全不同。就像同樣是想找一本書,有人會告訴圖書管理員"請給我找一本關於二戰中史達林格勒戰役的歷史書",有人則會說"史達林格勒 二戰 歷史"——尋找的是同一本書,但表達方式決定了誰能找到。這也意味著,為某個搜尋引擎專門優化的AI策略,並不能簡單地"移植"到其他搜尋引擎上,必須針對每個搜尋引擎重新訓練。
---
六、人類專家的經驗值多少錢?
研究團隊還系統地研究了一個實際問題:在訓練過程中,告訴AI多少關於搜尋引擎工作原理的"背景知識",會產生怎樣的影響?
團隊設計了三種不同程度的提示方式。第一種是"通用提示":只告訴AI一些通用的搜索詞改寫技巧,包括語義擴展、問題分解、關鍵詞提取等五種方法,但不告訴AI面對的是哪個搜尋引擎,讓它完全靠自己在強化學習過程中摸索。第二種是"探索型提示":告訴AI它在使用哪個搜尋引擎,以及這個搜尋引擎的大致工作原理,鼓勵它自行推斷最優策略。第三種是"專家型提示":直接告訴AI人類專家認為的最優策略,比如對Contriever就明確說"請使用假設文檔生成方法",對BM25則說"請提取核心關鍵詞"。
實驗結果呈現出一個有趣的分裂:對於Contriever,"專家型提示"最終表現最好,因為Contriever的工作原理比較獨特,AI如果沒有提示,在早期探索階段很容易走偏——它會誤以為關鍵詞匹配對Contriever也有效,從而陷入一個次優策略的陷阱,大約在第200個訓練步驟時就停止進步了。而明確的專家指導幫助它避開了這個彎路,最終到達了更高的性能峰值。
對於BM25,情況卻相反:探索型提示的效果反而略優於專家型提示。原因在於BM25是一個歷史悠久、在網路上有大量資料介紹的檢索系統,AI在預訓練階段就已經積累了不少關於BM25工作原理的知識,不需要人類手把手指導也能很快悟出關鍵詞策略。而過於剛性的專家指令反而限制了AI進一步優化細節的空間。
這個規律背後有一個直覺上很好理解的原理:當AI對某件事的自我認知比較貧乏時,人類的指導能有效幫它少走彎路;但當AI本身對某件事已經有足夠的了解時,給它一定的自由探索空間反而能發現人類專家沒想到的策略。
---
七、更大的模型,發現了人類專家沒想到的招
研究團隊還測試了不同規模的AI模型——從4B參數到8B再到14B(參數數量可以粗略理解為模型的"大腦容量")。
4B和8B的模型在探索型提示下,都會比較快地收斂到一個"還不錯但不是最優"的策略——通常是某種加長版的問句改寫。而14B的模型卻做出了一件讓研究團隊頗為驚喜的事情:它發現了一種人類專家完全沒有預料到的策略。
具體案例非常生動。對於問題"Is it possible to be white and Latino?"(一個人能同時是白人和拉丁裔嗎),人類專家預期的改寫方式是生成一段類似維基百科文章的假設文檔,或者把問題改寫成自然語言的陳述。14B模型經過大量強化學習訓練後,最終摸索出了一個極簡策略——把這個問題改寫成"Being white and Latino"(做白人同時也是拉丁裔)這樣一個簡潔的名詞短語,仿佛在給一個概念命名,而不是在提問。
這個改寫方式的nDCG@10得分高達0.965,接近滿分;而把問題改寫成"Can someone be both white and Latino?"這樣自然的問句,得分只有0.542。短短五個詞,勝過了一整個自然語言的問句。這說明大模型在足夠充分的探索空間裡,能夠發現人類直覺之外的有效策略。
從學習過程來看,更大的模型在訓練初期往往表現更差——因為它會探索更多的可能性,其中很多一開始都是無效的。但正是這種"敢於亂試"的勇氣,最終讓它找到了別的模型找不到的路。
---
八、兩輪檢索比一輪更聰明,但訓練很容易崩
研究團隊還探索了讓AI進行多輪檢索的可能性。邏輯很直觀:第一次搜索就算沒找到最準確的答案,至少能看到搜尋引擎返回了哪些文章——這些文章本身就是關於"這個搜尋引擎里有什麼"的寶貴線索,可以幫助AI在第二輪改寫出更精準的搜索詞。
一個四輪檢索的案例展示了這個過程:用戶問的是"如果美元不再是世界儲備貨幣,會有什麼影響?"第一輪,AI生成了一段非常通用的假設文檔,搜索結果質量很差(nDCG@10為0);但通過觀察返回的文檔,AI注意到這個語料庫里包含大量企業財務報告(10-K年報),於是第二輪改寫時引入了"去美元化"、""、"全球金融體系"等更具體的詞,分數提升到了56.84;第四輪時,AI已經完全掌握了這個語料庫的"口味",改寫成了充滿財務報告專業術語的問題,最終得分飆升至93.74,接近滿分。
然而,訓練多輪檢索系統有一個棘手的問題:第一輪和第二輪的獎勵信號會互相干擾,導致訓練過程極不穩定,模型很容易"崩掉"。
研究團隊為此發明了一種叫"分支式展開"的訓練技巧。普通的做法是讓16個"平行宇宙"各自獨立地完成兩輪檢索,這樣每個兩輪軌跡都是獨立的,第一輪好不好、第二輪好不好,信號混在一起很難區分。而分支式展開的做法是:先讓4個不同的第一輪改寫策略各自完成搜索,然後對每個第一輪結果,再分別生成4個不同的第二輪改寫策略——也就是4×4的樹狀結構。
這樣做的好處在於,對於第二輪的訓練,第一輪的結果是固定的"背景",4個第二輪策略在同樣的起點下競爭,誰的改寫更好一目了然,不會被第一輪的好壞所干擾;對於第一輪的訓練,它的價值則由這4個第二輪結果的平均分來估計,一個平均值遠比單一隨機樣本穩定。實驗圖表清晰地顯示,獨立式訓練策略在約150步左右出現了明顯的訓練崩潰,而分支式訓練則持續穩定地提升,直到250步仍保持良好狀態。
---
九、在金融領域和陌生題庫上,依然表現出色
研究團隊還測試了這套方法的泛化能力。一方面,他們在完全沒有見過的測試集(BEIR基準)上零樣本測試——也就是訓練時完全沒有見過這類問題,直接上場答題。結果顯示,經過訓練的AI查詢改寫器將Contriever檢索器的平均性能從28.84提升到了34.98,提升幅度相當可觀。
相比之下,研究團隊還測試了直接調用谷歌最新的Gemini-2.5-Flash模型來做查詢改寫,無論用通用提示還是針對Contriever的專屬提示,Gemini的表現反而不如原始Contriever,說明一個強大的通用AI,如果沒有針對特定檢索環境的專門訓練,反而可能幫倒忙。
另一方面,在FinAgentBench這個專門考察金融領域文檔檢索的測試集上,訓練好的AI也對所有四種檢索器都帶來了提升——Contriever從6.43升至7.39,BM25從8.17升至9.02,Qwen3-Embedding從9.10升至10.81。金融文檔有自己獨特的語言習慣和術語體系,這個領域的文檔也和普通訓練數據差異很大,但AI依然成功地適應了這個新環境。
這些提升不僅僅體現在檢索環節,研究團隊還專門驗證了檢索質量的提升是否真的能帶動最終答案質量的提升。在HotpotQA這個數據集上,他們讓AI檢索後,再用Qwen2.5-7B-Instruct這個模型來根據檢索結果生成答案,結果顯示準確率從41.4%提升到了46.9%,F1分從41.0提升到了46.0,精確匹配率從31.2%提升到了35.2%——"找得准"確實能讓AI"答得好"。
---
說到底,這項研究揭示了一個在AI時代頗為實用的道理:工具不同,方法就得不同,沒有放之四海而皆準的萬能搜索詞。就像面對一個只認關鍵詞的老式圖書管理員,和面對一個能理解自然語言的智能助手,你提問的方式本該截然不同——現在這個研究告訴我們,AI也可以學會這種"看人下菜碟"的能力,而且學得相當不錯。
對於普通用戶來說,這意味著未來的AI助手在幫你查資料時,將會更加"聰明"地適配後台的搜索系統,而不是用一套固定的方式應付所有情況。對於企業或開發者來說,這項研究提供了一套完整的方法論:通過強化學習訓練專門適配特定檢索環境的查詢改寫器,並且明確了什麼時候需要人類專家介入引導、什麼時候更應該讓AI自由探索。
這項研究目前還有兩個局限值得關註:一是只研究了文字類的搜尋引擎,圖片、音頻等多模態的情況還沒有涉及;二是多輪檢索只測試了兩輪,更長的檢索鏈條是否同樣有效,還需要進一步研究。
有興趣深入研究的讀者可以通過arXiv:2606.16817v1找到完整論文,代碼和相關資源也已開放在LCO-Embedding/Envs-aware-Information-Retrieval項目中。
---
Q&A
Q1:Contriever檢索器為什麼偏愛"文檔風格"的搜索詞?
A:Contriever在訓練時,是把同一篇維基百科文章里的兩個段落當作"相似內容對"來學習的,這讓它特別擅長識別"風格和內容相似的文檔"。因此,當你給它一段看起來像目標文章本身的文字(而不是一個問句),它反而能更準確地找到真正的目標文檔。用問句問它,效果反而不如用假設的目標文章段落來"釣魚"。
Q2:強化學習訓練AI改寫搜索詞,和直接告訴AI如何改寫有什麼區別?
A:直接告訴AI(比如Gemini)如何改寫,相當於讓一個從未實際用過這個搜尋引擎的人給建議,建議可能聽起來合理但實際效果差。而強化學習是讓AI真正去搜尋引擎里"試",搜到了就獎勵、搜偏了就扣分,通過大量實際反饋逐漸摸索出最有效的策略。實驗顯示,經過訓練的改寫器在陌生數據集上性能提升明顯,而直接調用Gemini的結果反而低於不改寫的基線。
Q3:分支式展開訓練技術解決了什麼問題?
A:多輪檢索訓練時,第一輪搜索好不好和第二輪搜索好不好的獎勵信號會混在一起,導致AI無法準確判斷"是我第一步的問題還是第二步的問題",訓練容易崩潰。分支式展開讓每個第一輪結果對應多個不同的第二輪嘗試,第二輪的訓練信號因此不受第一輪好壞干擾,同時第一輪的價值由多個第二輪結果平均估算,大大減少了隨機噪音帶來的誤判。






