這項由瑞士Idiap研究所、洛桑聯邦理工學院(EPFL)以及捷克布爾諾理工大學(BUT)聯合開展的研究,於2026年6月1日以預印本形式發布,論文編號為arXiv:2606.02248。感興趣的讀者可通過該編號在arXiv平台查詢完整原文。
**當AI開始"自言自語"……**
你有沒有遇到過這樣的場景:向某位同事問一個簡單問題,結果他洋洋灑灑講了半小時,從歷史背景講到未來展望,最後才說出那個其實三句話就能說清楚的答案?現代AI大語言模型,尤其是那些擅長推理的"思考型"模型,正面臨著類似的困境。
當你問它"2加3等於幾",它可能先在內部"想"上幾百個詞:"好的,這是一道加法題,加法是數學中的基本運算,2是一個正整數,3也是一個正整數,根據基本算術規則……",最終才吐出"5"。這種把推理過程逐字寫出來的方式,在技術上叫做"思維鏈"(Chain-of-Thought,簡稱CoT)。它確實讓AI變聰明了很多,但代價是極其冗長,就像那位喋喋不休的同事。
研究團隊思考了一個關鍵問題:AI在內心"思考"的時候,真的必須把每一個念頭都轉化成文字嗎?還是說,有些思考步驟可以在更底層、更緊湊的形式下悄悄完成,然後在恰當的時候才開口說話?正是圍繞這個問題,他們提出了一種叫做**幾何潛在推理**(Geometric Latent Reasoning,簡稱GLR)的新方法。
**一、AI思考時,大腦里到底在發生什麼**
要理解這項研究,先要對AI的"大腦構造"有個基本印象。
每一個大語言模型,在它的最底層,都維護著一張巨大的"詞彙地圖"。這張地圖裡,每一個單詞、每一個字符,都被表示成一個由成千上萬個數字組成的點——專業上叫做"詞嵌入"(token embedding)。這些點並不是隨機散布的,語義相近的詞會擠在相近的位置,就像地圖上相鄰城市距離更近一樣。
當AI生成一段推理過程時,它其實是在這張地圖上一步步"跳格子":先落在"好的"這個詞的位置,再跳到"這是一道"的位置,再跳到"加法題"的位置……每一跳都要精確落在某個具體詞彙所在的格子上。這就是"離散化"——每個中間狀態都必須對應一個真實存在的詞。
研究團隊把這個過程想像成一條軌跡,一條穿越詞彙空間的路徑。他們發現了一件很有趣的事:這條路徑上的格子(詞彙點)周圍,存在著一片連續的"鄰域"。也就是說,詞彙點旁邊那些不對應任何具體單詞的空白區域,同樣可以作為有意義的中間狀態被AI處理——即使那裡沒有格子,AI也不會"摔倒"。
這個發現並非憑空猜想。早先已經有研究者觀察到,當你把幾個詞的嵌入按概率加權平均,得到一個不對應任何單詞的"軟嵌入",餵給AI之後,它依然能接收到有效的信號並繼續推理。這就好比說,地圖上兩個城市之間的空曠原野,也是可以行走的,不是說你只能踩在有城市標記的點上才能移動。
**二、幾何捷徑:用向量方向代替逐詞跳躍**
基於上述發現,研究團隊提出了一個大膽的想法:既然AI思考時走的是詞彙空間裡的一條軌跡,那能不能不讓它一格一格地跳,而是直接在空間裡連續地"滑行"?
這就是GLR方法的核心思路。研究團隊為AI模型添加了一個非常輕量的"過渡頭"(transition head)——可以把它理解為模型大腦里新裝的一個小型導航儀。這個導航儀的工作原理非常直接:在每一步,它不問"下一個詞是什麼",而是問"下一步應該往哪個方向移動多少距離"。用數學語言說,它預測的是當前位置到下一個詞位置之間的方向向量(displacement vector)。
訓練的時候,研究團隊給導航儀提供了大量真實的推理軌跡作為參考。每一條推理軌跡,就是模型在詞彙空間裡留下的一串連續位置記錄。導航儀的目標,就是學會預測這些位置之間的跳躍方向。訓練目標採用了一種叫做"帶位置折扣的均方誤差"的損失函數——這個名字聽起來很繞,但本質很簡單:對推理軌跡前期的方向預測要求更嚴格,後期允許更多偏差。這就像你背一段路線,起點附近的轉彎你必須記准,但走了很遠之後的小彎道可以有些誤差。
訓練過程採用了"兩次前向傳播"的策略。第一次,模型按正常方式處理帶有推理鏈的文本,同時讓導航儀預測每一步的移動方向。第二次,用導航儀預測的連續位置替換掉原本的離散詞語嵌入,再次運行模型,檢驗在這種替換下模型能否依然給出正確答案。這個雙重驗證的機制,確保了導航儀不僅學會了"怎麼滑行",還保證了"滑行後落腳的地方是有用的"。
值得一提的是,在這個第二次前向傳播里,研究團隊明確不對被替換的推理位置施加"猜詞"的損失——也就是說,導航儀預測的中間狀態,不需要對應任何具體詞彙,它的價值完全由"是否幫助最終答案更準確"來衡量。這個設計決定非常關鍵:它給了連續推理狀態真正的自由,不需要把自己偽裝成某個單詞。
**三、推理時,模型走的是一條"斜切路"**
訓練完成後,GLR在實際回答問題時的工作方式如下:
模型接收到問題後,進入思考階段。此時,它不立即開始逐詞生成推理文本,而是先由導航儀帶領,在詞彙空間裡走K步連續的"滑行"。K是一個由用戶預先設定的參數,表示用多少步連續潛在移動來代替傳統的離散文字推理。
每一步滑行,模型從當前位置出發,由導航儀算出一個方向向量,然後直接移動到新位置——這個新位置不落在任何詞彙格子上,它就漂浮在詞彙空間的"原野"里。K步走完後,模型才切換回正常模式,開始生成可見的文字答案。
從旁觀者的角度看,這個過程就像是:一個思維清晰但沉默的人,在內心快速完成了思維的大部分工作,然後才開口,直接說出相對靠近答案的內容,而不是把每一個念頭都大聲讀出來。
在論文附錄的定性案例里,研究團隊展示了一個生動的例子。面對問題"一輛公共汽車上男女比例是5:9,總乘客84人,下一站20名女性下車,剩餘多少名女性?",使用了20步潛在推理的GLR模型,在完成20次連續滑行後,第一個說出的詞居然是"54 - 20 = 34"——它直接跳過了"總部數是14"、"每部6人"、"女性共54人"這些中間推導步驟,直接從潛在狀態中提取出了關鍵數字並給出差值。更有趣的是,它隨後再用完整的文字把推導過程補全,以供人類核對。這說明潛在推理階段確實完成了真實的數學計算,而不只是"跳過了幾個詞"。
**四、短了多少?實驗數據說話**
研究團隊在多個數學推理基準測試上進行了系統評估,使用的模型是阿里雲開源的Qwen3,分別測試了0.6B(6億參數)和1.7B(17億參數)兩個規模。測試集涵蓋了從小學算術到奧數級別的六個數據集:GSM8K(小學數學應用題)、SVAMP(變形算術題)、MultiArith(多步驟算術)、MATH500(高中競賽數學)、AMC23(美國數學競賽)以及OlympiadBench(奧林匹克數學)。
實驗的設置非常公平:GLR和對照組(只使用傳統文字推理鏈微調的模型,簡稱CoT-SFT)使用完全相同的訓練數據(從Open-R1數據集中隨機採樣的1萬條推理樣本),完全相同的訓練超參數,唯一區別是GLR額外裝配了導航儀,並且輸入嵌入層被凍結不允許更新(這是為了防止詞彙位置在訓練中漂移,導致導航儀的目標不斷變化,類似於射擊練習時不能讓靶子自己移動)。
**在受限生成預算下的表現**
第一個令人印象深刻的發現,發生在"受限生成預算"這個場景下。研究團隊為模型設置了一個"最多能生成多少步"的上限,然後觀察在不同上限下兩種方法的準確率。
當上限設置得很小時——比如對於MATH500數據集,只允許生成512步——傳統的CoT-SFT模型準確率接近於零。原因很簡單:它的推理鏈太長了,512步根本不夠它寫完推理過程,答案還沒出口就被截斷了。而GLR-10(10步潛在推理的版本)在同樣的512步限制下,準確率超過40%。注意,這裡GLR的"512步"包含了它的10步潛在推理,所以實際上它和CoT-SFT拿到的"步數配額"是一樣多的——差別僅在於GLR用了10步在詞彙空間裡悄悄滑行,剩下的配額才用來生成文字。
**正確答案需要的步數大幅減少**
第二個關鍵發現,是當兩個方法都不受預算限制、可以自由生成時,GLR做對一道題所需要的總步數遠遠少於CoT-SFT。
以MATH500數據集上的1.7B模型為例,CoT-SFT答對一道題的中位數生成長度約為2000個詞元(token),而GLR-10和GLR-20的中位數僅約350步——減少了近六倍。在GSM8K上,CoT-SFT的正確答案中位數約為1000步,而GLR-5和GLR-10的中位數都在200步以下。
尤其值得一提的是SVAMP數據集——這是一組非常簡單的算術題,只需要加減法。邏輯上講,這些題目用不了幾步就能算出來,但CoT-SFT偏偏為這類簡單題生成了長達500到700步的推理文字,這說明傳統文字推理存在一種"序列化開銷"——即使實際需要的計算很短,寫出來的推理鏈也會很長,就像某些人無論回答什麼問題都要先說"這是一個很好的問題"然後再繞幾個圈才到正題一樣。GLR在SVAMP上把正確答案的中位數步數壓縮到了約100步,顯示出潛在推理可以有效跳過這種冗餘的"序列化包裝"。
**一個關鍵的排除實驗**
為了確認這種縮短效果真的來自於連續潛在推理,而不只是來自GLR訓練方式的某些副作用(比如它對推理位置不施加"猜詞"損失),研究團隊還測試了GLR-0——也就是同樣用GLR方法訓練,但推理時K設為0,完全不使用任何連續滑行步驟。結果很明確:GLR-0模型的正確答案生成長度中位數約為1000步,與CoT-SFT處於同一量級。只有當K大於0、真正啟用連續潛在推理時,步數才急劇下降。這強有力地證明,縮短效果確實來自連續移動本身,而不是訓練技巧的副產品。
**K值的選擇:並非越多越好**
另一個有趣的發現是,K值(潛在步數)的效果是非單調的。對於1.7B的模型,K在10到20之間時效果最佳;但當K增加到80或100時,準確率明顯下降。研究團隊對此的解釋是:導航儀被訓練為"局部移動預測器",適合做小步快走;如果連續走80步不回頭,誤差會累積,越走越偏離詞彙空間裡有意義的區域,就像一艘船在開闊水域上連續微調方向100次,最終可能偏離原定航線很遠。這一現象揭示了連續推理的一個穩定性上限,也暗示了未來改進的方向。
**五、這項研究的邊界與未來方向**
研究團隊對自己的工作局限性保持了清醒的認識,並在論文中坦誠地列出了幾點需要注意的地方。
訓練規模是最主要的限制因素。由於計算資源有限,他們只在1萬條樣本上進行了訓練,使用的也是相對較小的模型(0.6B和1.7B)。這意味著導航儀的學習範圍有限,在面對多樣化的推理路徑時可能覆蓋不全,這或許是大K值下性能下降的部分原因。擴大到更大的模型和更多的訓練數據,結果可能會更穩定。
評測範圍目前只覆蓋了數學推理領域。數學是一個邏輯結構極強、推理路徑相對標準化的領域,GLR在這裡表現良好。但在代碼生成、科學推理、多跳問答、規劃類任務等其他需要推理的場景,是否同樣奏效,還有待驗證。
當生成預算足夠充裕時,傳統CoT-SFT反而往往在最終準確率上追平甚至超越GLR。這說明連續潛在推理在極端受限的場景下最有價值,但當模型有足夠的"紙張"可以寫時,讓它把思路完整寫出來仍然是穩妥的策略。兩種方法並非對立,而是互補的。
可解釋性問題同樣值得關注。連續潛在推理的中間狀態無法被人類讀取,這使得模型的部分推理過程變成了一個黑盒。雖然最終答案仍然是文字,推理質量可以通過答案對錯來間接評估,但如果模型犯了錯誤,定位錯誤發生在哪個潛在步驟會比較困難。
展望未來,研究團隊提出了幾個頗具啟發性的擴展方向。一是將確定性的路徑預測升級為擴散模型或流匹配模型,這樣在推理時可以通過多次採樣不同路徑來進行"集成推理",就像同時模擬多條從起點到終點的滑行路線,取最佳的那條。二是將GLR應用到數學之外的領域,檢驗"連續潛在前綴可以壓縮推理"這一現象是否具有普遍性。三是在更大規模的模型和更豐富的訓練數據上驗證整個方法體系,看看導航儀的上限究竟在哪裡。
說到底,這項研究揭示的是一件既直覺又反直覺的事:AI的推理不一定非得完全"說出來"。人類在思考時,大腦里發生的那些快速、模糊、說不清楚的聯想和跳轉,占據了大量的認知工作,但最終表達出來的往往只是一個精煉的結論。GLR給AI模型提供了一個類似的機制——用連續的空間移動代替部分文字自言自語——結果發現這條"捷徑"不只是快,還是真實有效的:它確實承載了推理內容,而不只是壓縮了廢話。
這對於那些越來越依賴超長推理鏈的AI系統來說是一個很有價值的提醒:也許正確答案和過度表達之間,存在著一片可以用來高效穿行的連續空間。如何在這片空間裡走得既快又准,是接下來值得深入探索的方向。想進一步了解這項研究全貌的讀者,可通過arXiv編號2606.02248查閱完整論文。
---
Q&A
Q1:GLR方法中的"潛在步數K"應該設置為多少才合適?
A:根據實驗結果,K值的效果並非越大越好。對於1.7B規模的模型,K在10到20之間時表現最佳,準確率和生成效率的平衡最優。當K增大到80或100時,準確率明顯下降,原因是導航儀連續預測步數過多後會累積誤差,讓推理狀態偏離有效區域。不同模型規模和任務難度下,最優K值可能有所不同,需要通過實驗調整。
Q2:GLR和傳統思維鏈微調相比,哪種方法的最終準確率更高?
A:這取決於生成預算的限制情況。在嚴格限制生成步數時(如只允許512步),GLR的準確率遠高於傳統CoT-SFT,因為CoT-SFT的推理鏈太長會被截斷。但當生成預算充裕時,傳統CoT-SFT往往能追平甚至超越GLR的最終準確率。兩種方法各有優勢,互為補充,GLR更適合對推理速度和長度有要求的場景。
Q3:GLR方法中"凍結輸入嵌入層"是什麼意思,為什麼要這樣做?
A:輸入嵌入層是儲存每個詞彙位置坐標的"詞彙地圖"。凍結它意味著在訓練過程中這張地圖不會變動。之所以這樣做,是因為導航儀學習的是詞與詞之間的移動方向,如果地圖本身也在動,導航儀的目標就會不斷漂移,就像在移動的船上學習固定航線一樣,訓練會變得不穩定。凍結嵌入層確保了導航儀有一個穩定的參考系來學習。






