AI大腦里的「捷徑地圖」：瑞士Idiap研究所找到讓大模型少說廢話的幾何方法

這項由瑞士Idiap研究所、洛桑聯邦理工學院（EPFL）以及捷克布爾諾理工大學（BUT）聯合開展的研究，於2026年6月1日以預印本形式發布，論文編號為arXiv:2606.02248。感興趣的讀者可通過該編號在arXiv平台查詢完整原文。

贊助商廣告

**當AI開始"自言自語"……**

你有沒有遇到過這樣的場景：向某位同事問一個簡單問題，結果他洋洋灑灑講了半小時，從歷史背景講到未來展望，最後才說出那個其實三句話就能說清楚的答案？現代AI大語言模型，尤其是那些擅長推理的"思考型"模型，正面臨著類似的困境。

當你問它"2加3等於幾"，它可能先在內部"想"上幾百個詞："好的，這是一道加法題，加法是數學中的基本運算，2是一個正整數，3也是一個正整數，根據基本算術規則……"，最終才吐出"5"。這種把推理過程逐字寫出來的方式，在技術上叫做"思維鏈"（Chain-of-Thought，簡稱CoT）。它確實讓AI變聰明了很多，但代價是極其冗長，就像那位喋喋不休的同事。

研究團隊思考了一個關鍵問題：AI在內心"思考"的時候，真的必須把每一個念頭都轉化成文字嗎？還是說，有些思考步驟可以在更底層、更緊湊的形式下悄悄完成，然後在恰當的時候才開口說話？正是圍繞這個問題，他們提出了一種叫做**幾何潛在推理**（Geometric Latent Reasoning，簡稱GLR）的新方法。

**一、AI思考時，大腦里到底在發生什麼**

要理解這項研究，先要對AI的"大腦構造"有個基本印象。

每一個大語言模型，在它的最底層，都維護著一張巨大的"詞彙地圖"。這張地圖裡，每一個單詞、每一個字符，都被表示成一個由成千上萬個數字組成的點——專業上叫做"詞嵌入"（token embedding）。這些點並不是隨機散布的，語義相近的詞會擠在相近的位置，就像地圖上相鄰城市距離更近一樣。

當AI生成一段推理過程時，它其實是在這張地圖上一步步"跳格子"：先落在"好的"這個詞的位置，再跳到"這是一道"的位置，再跳到"加法題"的位置……每一跳都要精確落在某個具體詞彙所在的格子上。這就是"離散化"——每個中間狀態都必須對應一個真實存在的詞。

贊助商廣告

研究團隊把這個過程想像成一條軌跡，一條穿越詞彙空間的路徑。他們發現了一件很有趣的事：這條路徑上的格子（詞彙點）周圍，存在著一片連續的"鄰域"。也就是說，詞彙點旁邊那些不對應任何具體單詞的空白區域，同樣可以作為有意義的中間狀態被AI處理——即使那裡沒有格子，AI也不會"摔倒"。

這個發現並非憑空猜想。早先已經有研究者觀察到，當你把幾個詞的嵌入按概率加權平均，得到一個不對應任何單詞的"軟嵌入"，餵給AI之後，它依然能接收到有效的信號並繼續推理。這就好比說，地圖上兩個城市之間的空曠原野，也是可以行走的，不是說你只能踩在有城市標記的點上才能移動。

**二、幾何捷徑：用向量方向代替逐詞跳躍**

基於上述發現，研究團隊提出了一個大膽的想法：既然AI思考時走的是詞彙空間裡的一條軌跡，那能不能不讓它一格一格地跳，而是直接在空間裡連續地"滑行"？

這就是GLR方法的核心思路。研究團隊為AI模型添加了一個非常輕量的"過渡頭"（transition head）——可以把它理解為模型大腦里新裝的一個小型導航儀。這個導航儀的工作原理非常直接：在每一步，它不問"下一個詞是什麼"，而是問"下一步應該往哪個方向移動多少距離"。用數學語言說，它預測的是當前位置到下一個詞位置之間的方向向量（displacement vector）。

訓練的時候，研究團隊給導航儀提供了大量真實的推理軌跡作為參考。每一條推理軌跡，就是模型在詞彙空間裡留下的一串連續位置記錄。導航儀的目標，就是學會預測這些位置之間的跳躍方向。訓練目標採用了一種叫做"帶位置折扣的均方誤差"的損失函數——這個名字聽起來很繞，但本質很簡單：對推理軌跡前期的方向預測要求更嚴格，後期允許更多偏差。這就像你背一段路線，起點附近的轉彎你必須記准，但走了很遠之後的小彎道可以有些誤差。

贊助商廣告

訓練過程採用了"兩次前向傳播"的策略。第一次，模型按正常方式處理帶有推理鏈的文本，同時讓導航儀預測每一步的移動方向。第二次，用導航儀預測的連續位置替換掉原本的離散詞語嵌入，再次運行模型，檢驗在這種替換下模型能否依然給出正確答案。這個雙重驗證的機制，確保了導航儀不僅學會了"怎麼滑行"，還保證了"滑行後落腳的地方是有用的"。

值得一提的是，在這個第二次前向傳播里，研究團隊明確不對被替換的推理位置施加"猜詞"的損失——也就是說，導航儀預測的中間狀態，不需要對應任何具體詞彙，它的價值完全由"是否幫助最終答案更準確"來衡量。這個設計決定非常關鍵：它給了連續推理狀態真正的自由，不需要把自己偽裝成某個單詞。

**三、推理時，模型走的是一條"斜切路"**

訓練完成後，GLR在實際回答問題時的工作方式如下：

模型接收到問題後，進入思考階段。此時，它不立即開始逐詞生成推理文本，而是先由導航儀帶領，在詞彙空間裡走K步連續的"滑行"。K是一個由用戶預先設定的參數，表示用多少步連續潛在移動來代替傳統的離散文字推理。

每一步滑行，模型從當前位置出發，由導航儀算出一個方向向量，然後直接移動到新位置——這個新位置不落在任何詞彙格子上，它就漂浮在詞彙空間的"原野"里。K步走完後，模型才切換回正常模式，開始生成可見的文字答案。

從旁觀者的角度看，這個過程就像是：一個思維清晰但沉默的人，在內心快速完成了思維的大部分工作，然後才開口，直接說出相對靠近答案的內容，而不是把每一個念頭都大聲讀出來。

在論文附錄的定性案例里，研究團隊展示了一個生動的例子。面對問題"一輛公共汽車上男女比例是5:9，總乘客84人，下一站20名女性下車，剩餘多少名女性？"，使用了20步潛在推理的GLR模型，在完成20次連續滑行後，第一個說出的詞居然是"54 - 20 = 34"——它直接跳過了"總部數是14"、"每部6人"、"女性共54人"這些中間推導步驟，直接從潛在狀態中提取出了關鍵數字並給出差值。更有趣的是，它隨後再用完整的文字把推導過程補全，以供人類核對。這說明潛在推理階段確實完成了真實的數學計算，而不只是"跳過了幾個詞"。

贊助商廣告

**四、短了多少？實驗數據說話**

研究團隊在多個數學推理基準測試上進行了系統評估，使用的模型是阿里雲開源的Qwen3，分別測試了0.6B（6億參數）和1.7B（17億參數）兩個規模。測試集涵蓋了從小學算術到奧數級別的六個數據集：GSM8K（小學數學應用題）、SVAMP（變形算術題）、MultiArith（多步驟算術）、MATH500（高中競賽數學）、AMC23（美國數學競賽）以及OlympiadBench（奧林匹克數學）。

實驗的設置非常公平：GLR和對照組（只使用傳統文字推理鏈微調的模型，簡稱CoT-SFT）使用完全相同的訓練數據（從Open-R1數據集中隨機採樣的1萬條推理樣本），完全相同的訓練超參數，唯一區別是GLR額外裝配了導航儀，並且輸入嵌入層被凍結不允許更新（這是為了防止詞彙位置在訓練中漂移，導致導航儀的目標不斷變化，類似於射擊練習時不能讓靶子自己移動）。

**在受限生成預算下的表現**

第一個令人印象深刻的發現，發生在"受限生成預算"這個場景下。研究團隊為模型設置了一個"最多能生成多少步"的上限，然後觀察在不同上限下兩種方法的準確率。

當上限設置得很小時——比如對於MATH500數據集，只允許生成512步——傳統的CoT-SFT模型準確率接近於零。原因很簡單：它的推理鏈太長了，512步根本不夠它寫完推理過程，答案還沒出口就被截斷了。而GLR-10（10步潛在推理的版本）在同樣的512步限制下，準確率超過40%。注意，這裡GLR的"512步"包含了它的10步潛在推理，所以實際上它和CoT-SFT拿到的"步數配額"是一樣多的——差別僅在於GLR用了10步在詞彙空間裡悄悄滑行，剩下的配額才用來生成文字。

**正確答案需要的步數大幅減少**

第二個關鍵發現，是當兩個方法都不受預算限制、可以自由生成時，GLR做對一道題所需要的總步數遠遠少於CoT-SFT。

以MATH500數據集上的1.7B模型為例，CoT-SFT答對一道題的中位數生成長度約為2000個詞元（token），而GLR-10和GLR-20的中位數僅約350步——減少了近六倍。在GSM8K上，CoT-SFT的正確答案中位數約為1000步，而GLR-5和GLR-10的中位數都在200步以下。

贊助商廣告

尤其值得一提的是SVAMP數據集——這是一組非常簡單的算術題，只需要加減法。邏輯上講，這些題目用不了幾步就能算出來，但CoT-SFT偏偏為這類簡單題生成了長達500到700步的推理文字，這說明傳統文字推理存在一種"序列化開銷"——即使實際需要的計算很短，寫出來的推理鏈也會很長，就像某些人無論回答什麼問題都要先說"這是一個很好的問題"然後再繞幾個圈才到正題一樣。GLR在SVAMP上把正確答案的中位數步數壓縮到了約100步，顯示出潛在推理可以有效跳過這種冗餘的"序列化包裝"。

**一個關鍵的排除實驗**

為了確認這種縮短效果真的來自於連續潛在推理，而不只是來自GLR訓練方式的某些副作用（比如它對推理位置不施加"猜詞"損失），研究團隊還測試了GLR-0——也就是同樣用GLR方法訓練，但推理時K設為0，完全不使用任何連續滑行步驟。結果很明確：GLR-0模型的正確答案生成長度中位數約為1000步，與CoT-SFT處於同一量級。只有當K大於0、真正啟用連續潛在推理時，步數才急劇下降。這強有力地證明，縮短效果確實來自連續移動本身，而不是訓練技巧的副產品。

**K值的選擇：並非越多越好**

另一個有趣的發現是，K值（潛在步數）的效果是非單調的。對於1.7B的模型，K在10到20之間時效果最佳；但當K增加到80或100時，準確率明顯下降。研究團隊對此的解釋是：導航儀被訓練為"局部移動預測器"，適合做小步快走；如果連續走80步不回頭，誤差會累積，越走越偏離詞彙空間裡有意義的區域，就像一艘船在開闊水域上連續微調方向100次，最終可能偏離原定航線很遠。這一現象揭示了連續推理的一個穩定性上限，也暗示了未來改進的方向。

**五、這項研究的邊界與未來方向**

研究團隊對自己的工作局限性保持了清醒的認識，並在論文中坦誠地列出了幾點需要注意的地方。

訓練規模是最主要的限制因素。由於計算資源有限，他們只在1萬條樣本上進行了訓練，使用的也是相對較小的模型（0.6B和1.7B）。這意味著導航儀的學習範圍有限，在面對多樣化的推理路徑時可能覆蓋不全，這或許是大K值下性能下降的部分原因。擴大到更大的模型和更多的訓練數據，結果可能會更穩定。

贊助商廣告

評測範圍目前只覆蓋了數學推理領域。數學是一個邏輯結構極強、推理路徑相對標準化的領域，GLR在這裡表現良好。但在代碼生成、科學推理、多跳問答、規劃類任務等其他需要推理的場景，是否同樣奏效，還有待驗證。

當生成預算足夠充裕時，傳統CoT-SFT反而往往在最終準確率上追平甚至超越GLR。這說明連續潛在推理在極端受限的場景下最有價值，但當模型有足夠的"紙張"可以寫時，讓它把思路完整寫出來仍然是穩妥的策略。兩種方法並非對立，而是互補的。

可解釋性問題同樣值得關注。連續潛在推理的中間狀態無法被人類讀取，這使得模型的部分推理過程變成了一個黑盒。雖然最終答案仍然是文字，推理質量可以通過答案對錯來間接評估，但如果模型犯了錯誤，定位錯誤發生在哪個潛在步驟會比較困難。

展望未來，研究團隊提出了幾個頗具啟發性的擴展方向。一是將確定性的路徑預測升級為擴散模型或流匹配模型，這樣在推理時可以通過多次採樣不同路徑來進行"集成推理"，就像同時模擬多條從起點到終點的滑行路線，取最佳的那條。二是將GLR應用到數學之外的領域，檢驗"連續潛在前綴可以壓縮推理"這一現象是否具有普遍性。三是在更大規模的模型和更豐富的訓練數據上驗證整個方法體系，看看導航儀的上限究竟在哪裡。

說到底，這項研究揭示的是一件既直覺又反直覺的事：AI的推理不一定非得完全"說出來"。人類在思考時，大腦里發生的那些快速、模糊、說不清楚的聯想和跳轉，占據了大量的認知工作，但最終表達出來的往往只是一個精煉的結論。GLR給AI模型提供了一個類似的機制——用連續的空間移動代替部分文字自言自語——結果發現這條"捷徑"不只是快，還是真實有效的：它確實承載了推理內容，而不只是壓縮了廢話。

這對於那些越來越依賴超長推理鏈的AI系統來說是一個很有價值的提醒：也許正確答案和過度表達之間，存在著一片可以用來高效穿行的連續空間。如何在這片空間裡走得既快又准，是接下來值得深入探索的方向。想進一步了解這項研究全貌的讀者，可通過arXiv編號2606.02248查閱完整論文。

贊助商廣告

---

Q&A

Q1：GLR方法中的"潛在步數K"應該設置為多少才合適？

A：根據實驗結果，K值的效果並非越大越好。對於1.7B規模的模型，K在10到20之間時表現最佳，準確率和生成效率的平衡最優。當K增大到80或100時，準確率明顯下降，原因是導航儀連續預測步數過多後會累積誤差，讓推理狀態偏離有效區域。不同模型規模和任務難度下，最優K值可能有所不同，需要通過實驗調整。

Q2：GLR和傳統思維鏈微調相比，哪種方法的最終準確率更高？

A：這取決於生成預算的限制情況。在嚴格限制生成步數時（如只允許512步），GLR的準確率遠高於傳統CoT-SFT，因為CoT-SFT的推理鏈太長會被截斷。但當生成預算充裕時，傳統CoT-SFT往往能追平甚至超越GLR的最終準確率。兩種方法各有優勢，互為補充，GLR更適合對推理速度和長度有要求的場景。

Q3：GLR方法中"凍結輸入嵌入層"是什麼意思，為什麼要這樣做？

A：輸入嵌入層是儲存每個詞彙位置坐標的"詞彙地圖"。凍結它意味著在訓練過程中這張地圖不會變動。之所以這樣做，是因為導航儀學習的是詞與詞之間的移動方向，如果地圖本身也在動，導航儀的目標就會不斷漂移，就像在移動的船上學習固定航線一樣，訓練會變得不穩定。凍結嵌入層確保了導航儀有一個穩定的參考系來學習。