Google DeepMind發現AI搜索的數學局限

2025年8月28日，Google DeepMind研究團隊發現了現代AI搜索技術的根本數學局限：向量嵌入模型無法表示所有可能的文檔組合，即使面對極簡單的查詢也可能失效。他們創建的LIMIT數據集顯示，最先進的神經網路模型在基礎的"誰喜歡什麼"問題上表現糟糕，而傳統BM25算法反而近乎完美。研究指出未來需要混合架構而非單一技術來構建更強大的搜索系統。相關論文發布在arXiv上。

贊助商廣告

當AI的"記憶盒子"遇到容量瓶頸

首先我們需要理解現代搜尋引擎是如何工作的。過去二十年裡，資訊檢索技術經歷了一場革命性變化，從早期簡單的關鍵詞匹配（就像在字典里查單詞）發展到今天基於神經網路的智能搜索。現在的搜索系統使用向量嵌入技術：簡單來說，就是把所有的文字資訊都轉換成數字，然後裝進一個多維的"盒子"（向量空間）里。

這種方法很聰明：每個文檔和每個查詢都被轉換成一串數字（就像每個人都有一個獨特的身份證號碼），然後通過計算這些數字之間的相似度來判斷哪些文檔最相關。這就像是給每個資訊貼上一個多維的"標籤"，搜索時只需要找到標籤最匹配的資訊就行了。

然而，這種看似完美的系統卻有一個致命的弱點：向量空間的容量是有限的。就像你家裡的收納盒再大，也不可能裝下所有可能的物品組合。Google DeepMind的研究團隊首次用嚴格的數學理論證明了這一點，無論你的"盒子"有多大，總會有一些資訊組合是裝不下的。

近年來，搜索任務變得越來越複雜。現在的AI系統被要求處理各種複雜指令，比如"找到既是1849年出版的小說，又是喬治·桑德寫的作品"，或者"找到使用動態規划算法的編程題目"。這些任務要求AI能夠理解和組合各種不同的概念，就像要求一個收納師不僅要整理物品，還要能快速找出各種複雜的物品組合。

數學證明：為什麼有些組合永遠找不到

研究團隊運用了一種叫做符號秩（sign rank）的數學概念。這個用收納來解釋就容易理解了：假設你有一個收納盒，你想要存放各種物品的組合（比如紅色圓形物品、藍色方形物品等等）。符號秩就是告訴你，要完美存放所有可能的組合，你的收納盒至少需要多少個隔間。

贊助商廣告

具體來說，研究團隊建立了一個嚴格的數學框架。他們把搜索問題想像成一個巨大的表格：橫軸是所有可能的文檔，縱軸是所有可能的查詢，表格中的每個格子表示某個文檔對某個查詢是否相關。這就像是一個超級複雜的物品清單，標記著哪些物品組合應該被歸類在一起。

研究團隊證明了一個關鍵定理：對於任何給定的"盒子大小"（嵌入維度d），都存在一些物品組合是無法完美存放的。更驚人的是，他們不僅在理論上證明了這一點，還通過實驗驗證了這個結論。他們設計了一種"理想情況"的實驗：讓AI直接優化這些數字表示，相當於給了AI一個作弊的機會，讓它可以隨意調整自己的"收納方式"。

即使在這種理想條件下，實驗結果也清楚地顯示了容量瓶頸的存在。研究團隊發現，當文檔數量達到一個臨界點時，無論怎樣優化，AI都無法正確處理所有的查詢組合。更令人擔憂的是，對於真實的網路搜索場景，這個臨界點來得比想像中更早，即使是擁有最大嵌入維度的模型，在理想測試集優化條件下，也無法處理真正的網路規模搜索。

LIMIT數據集：用最簡單的問題暴露最深層的問題

為了驗證這些理論發現在現實中的表現，研究團隊建立名為LIMIT的測試數據集。這個數據集的設計思路非常巧妙：它故意避開了複雜的查詢操作符或高深的推理要求，而是專注於測試最基本的資訊組合能力。

LIMIT數據集的構建過程就像設計一個看似簡單卻暗藏機關的智力測試。研究團隊創建了一個虛擬的社交網路，裡面有各種虛擬人物，每個人都有自己喜歡的事物。比如"喬恩·德本喜歡袋鼠和蘋果"，"奧維德·拉姆喜歡袋鼠和兔子"，"萊斯利·拉漢姆喜歡蘋果和糖果"。然後，測試的問題簡單得令人髮指："誰喜歡袋鼠？"或者"誰喜歡蘋果？"

這些問題簡單到連小學生都能秒答，但當研究團隊把它們交給目前最先進的AI搜索模型時，意外的結果出現了。這些在其他複雜任務上表現優異的模型，在LIMIT數據集上的表現很差，甚至連20%的準確率都達不到。

贊助商廣告

這種現象的根本原因在於LIMIT數據集的精心設計：它要求模型能夠處理所有可能的"誰喜歡什麼"的組合。雖然每個單獨的問題都很簡單，但當所有可能的組合放在一起時，就超出了現有嵌入模型的表示能力。這就像要求一個收納師不僅要整理好每一類物品，還要能快速找出任何指定的物品組合，看似簡單，實際上對收納系統的要求極高。

研究團隊在實驗中測試了多個頂級模型，包括GritLM、Qwen 3 Embeddings、Promptriever、Gemini Embeddings、Snowflake Arctic Embed和E5-Mistral等。令人意外的是，傳統的BM25搜索算法（一種基於關鍵詞匹配的方法）在這個測試中表現優異，而神經網路模型卻表現糟糕。這個對比就像發現，在某些特定的收納任務中，傳統的分類標籤系統反而比最新的智能整理機器人更有效。

維度陷阱：更大的盒子也不是萬能藥

研究團隊的實驗還揭示了另一個重要發現：模型的嵌入維度（可以理解為"收納盒的隔間數量"）確實影響性能，但影響方式不是線性的，而是遵循一個複雜的數學曲線。

通過"自由嵌入"實驗（讓AI可以自由調整自己的數字表示方式），研究團隊繪製出了一條曲線。這條曲線顯示，要處理不同數量的文檔組合，需要的嵌入維度呈指數級增長。具體來說，他們發現了一個臨界點公式：y = -10.5322 4.0309d 0.0520d² 0.0037d³（其中d是嵌入維度，y是能夠處理的文檔數量）。

按照這個公式外推，即使是擁有512維嵌入的模型，也只能完美處理約50萬個文檔的組合；1024維的模型能處理170萬個；而即使是4096維的超大模型，也只能處理2.5億個文檔組合。這聽起來已經很多了，但考慮到真實的網路搜索需要處理數十億甚至數萬億的文檔組合，這個容量顯然遠遠不夠。

更令人擔憂的是，這還是在"理想條件"下的表現，實際的搜索模型還要受到自然語言本身的約束，無法像實驗中那樣自由調整數字表示，因此實際性能會更差。

贊助商廣告

不同"整理策略"的效果差異

研究團隊還測試了不同類型的查詢-文檔關係模式對模型性能的影響。他們設計了四種不同的"整理策略"：隨機模式（隨機選擇相關文檔）、循環模式（按規律輪轉）、分離模式（相關文檔完全不重疊）和密集模式（最大化文檔間的關聯）。

實驗結果顯示，前三種模式下，各個模型的表現相對正常。但當切換到密集模式時，所有模型的性能都出現斷崖式下跌。以GritLM模型為例，從隨機模式的50分直接跌落到密集模式的10分，性能降低了80%。這個結果證實了研究團隊的理論預測：當資訊之間的關聯變得複雜和密集時，現有的嵌入模型就會力不從心。

這種現象的本質是，密集關聯的資訊需要更高維度的表示空間。就像如果你的物品之間有很多複雜的關聯關係（比如有些物品必須成對出現，有些物品不能放在一起），你就需要一個更複雜的收納系統才能完美管理它們。

現實檢驗：簡單任務暴露深層問題

LIMIT數據集的設計原理基於一個深刻的觀察：現有的搜索評測數據集實際上只測試了所有可能查詢中極其微小的一部分。研究團隊以QUEST數據集為例進行了計算：該數據集有32.5萬個文檔，每個查詢有20個相關文檔，總共只有3357個查詢。但理論上，這個文檔集可能產生的不同top-20文檔組合數量是7.1×10^91，這個數字比可觀測宇宙中原子的估計數量（10^82）還要大。換句話說，現有的評測只覆蓋了理論上可能出現的查詢組合中微不足道的一小部分。

正因如此，現有的AI模型雖然在標準評測中表現優異，但這種優異很可能是虛假的，它們只是恰好在那一小部分被測試的組合上表現良好，而對於其他未被測試的組合可能完全無能為力。這就像一個收納師只學會了整理展示櫃裡的那幾樣物品，卻無法處理現實生活中千變萬化的整理需求。

為了驗證這個猜想，研究團隊設計了LIMIT數據集。這個數據集包含5萬個文檔和1000個查詢，每個查詢要求找到2個相關文檔。文檔內容極其簡單，就是記錄各種虛擬人物的喜好，而查詢也簡單到不能再簡單："誰喜歡某某東西？"。

贊助商廣告

然而，當這些看似幼稚的問題被交給最先進的AI模型時，結果讓人大跌眼鏡。即使是在標準評測中表現最好的模型，在LIMIT數據集上的表現也慘不忍睹。最好的神經網路模型在recall@100指標上的得分不到20%，而傳統的BM25算法卻輕鬆達到了90%以上的準確率。

維度詛咒：為什麼更大不總是更好

研究團隊的實驗還揭示了一個有趣的現象：模型的性能確實隨著嵌入維度的增加而提升，但這種提升遵循一個特定的模式，而且存在明顯的瓶頸。

在測試中，研究團隊比較了從32維到4096維的各種模型。結果顯示，雖然維度越高的模型表現越好，但即使是4096維的超大模型，在LIMIT數據集上的表現仍然遠遠低於傳統方法。這說明問題不僅僅是"盒子不夠大"，而是"裝盒子的方式"本身有問題。

更重要的是，研究團隊發現了模型訓練方式對性能的影響。那些使用了"俄羅斯套娃"式訓練（Matryoshka Representation Learning，簡稱MRL）的模型在小維度下表現更好，而那些專門針對指令跟隨進行訓練的模型（如Promptriever）在整體上表現更佳。這表明訓練策略的多樣性能幫助模型更好地利用其嵌入空間。

替代方案：跳出"盒子"思維的局限

面對這些根本性局限，研究團隊也探索了一些可能的解決方案。他們測試了三種不同的技術路線，每種都有其獨特的優勢和局限。

第一種是"交叉編碼器"（Cross-Encoders）。這種方法不再試圖把所有資訊都裝進固定的"盒子"里，而是針對每個具體查詢動態地比較文檔。研究團隊用Gemini-2.5-Pro模型進行測試，結果令人振奮：這個模型能夠完美解決LIMIT數據集中的所有1000個查詢，準確率達到100%。這就像僱傭一個專業整理師，不用預先分類物品，而是根據你的具體需求現場整理。然而，這種方法的代價是計算成本極高，無法應用於大規模的實時搜索。

第二種是"多向量模型"（Multi-vector models）。這些模型不再用單一的數字串來表示每個文檔，而是用多個數字串的組合。這就像用多個小盒子來代替一個大盒子，提供了更靈活的存儲方式。測試中的GTE-ModernColBERT模型確實比單向量模型表現更好，但仍然遠未達到完美水平。而且，這類模型通常不被用於指令跟隨或推理任務，其在更複雜任務上的表現還是未知數。

贊助商廣告

第三種是"稀疏模型"（Sparse models），包括傳統的BM25等。這些模型可以被看作是擁有超高維度的單向量模型。正因為維度極高，它們能夠處理比神經網路模型更多的組合。在LIMIT測試中，BM25的表現幾乎完美，這解釋了為什麼這種"老古董"技術至今仍在許多實際應用中占有一席之地。但問題是，這類模型很難處理那些需要語義理解或推理的複雜任務。

至頂AI實驗室洞見

本次研究揭示了當前主流AI搜索技術存在一個根本性的盲區。我們長期以來追求的更大、更強的單向量嵌入模型，在處理包含多個屬性或概念的複雜組合查詢時，存在著內在的「表示能力」瓶頸。這解釋了為何許多看似強大的AI系統在處理一些複合型查詢時會頻繁出錯，其根源並非程序bug，而是技術路線本身的天生局限。

未來的技術突破點不應是繼續盲目地擴大單一模型，而應轉向構建一個多元化、智能化的混合技術系統。未來的搜尋引擎需要像一個專業的工具箱，能夠根據查詢任務的複雜性，智能地選擇並組合最高效的技術方案：用稀疏模型處理簡單關鍵詞，用神經網路處理語義理解，用更強大的交叉編碼器等處理複雜推理。

資訊檢索領域正從對單一模型的依賴，轉向一個更加務實和高效的多技術、分層處理架構。真正的進步並非一味追求「更大更強」，而是深入理解技術的本質局限，並為此設計出更巧妙、更具適應性的解決方案。

論文地址：https://arxiv.org/abs/2508.21038