AI大腦的"深度天花板"：劍橋、帝國理工與MIT聯合研究揭示語言模型潛在推理的隱藏極限

這項由劍橋大學、帝國理工學院和麻省理工學院（MIT）聯合開展的研究，以預印本形式發布於2026年4月，論文編號為arXiv:2604.06427，標題為《The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning》。對於關注人工智慧安全與可解釋性的讀者來說，這篇論文觸及了一個極為關鍵卻長期被忽視的問題：當我們要求AI"直接給出答案"而不是"一步步寫出思考過程"時，它的大腦里究竟能走多遠？

贊助商廣告

**一、一個關乎AI安全的核心問題**

你也許用過ChatGPT或類似的AI助手，發現只要讓它"先想想再回答"，效果就會好很多。這種"邊寫邊想"的方式，研究者稱之為"思維鏈"（Chain of Thought，簡稱CoT）。道理很直白：當你讓AI把中間推理步驟都寫出來，不僅最終答案更準確，更重要的是，你能看到它"在想什麼"——就像老師檢查學生的解題過程，而不只是看最後答案對不對。

這種"看得見的思考過程"對AI安全來說意義重大。人類監督者可以通過閱讀AI寫下的推理軌跡，來判斷它是否有異常行為或危險傾向。但這種監督方式有一個隱患：萬一AI根本不需要寫出思考步驟，也能在"腦子裡"悄悄完成複雜推理，那我們看到的那些文字就不再是真實思維的窗口了。換句話說，如果AI能把整個下棋策略全部藏在一次運算里，我們所謂的"過程監控"就成了擺設。

這就是這項研究要回答的核心問題：AI的"隱藏推理"能有多深？它能在不寫一個字的情況下，在內部完成多少步驟的推理？隨著模型越來越大，這種隱藏推理能力會不會無限擴展，從而讓"思維鏈監控"失去意義？

**二、用"迷宮遊戲"來測量AI的隱藏推理深度**

研究團隊設計了一個極其巧妙的測試方式，可以用一個簡單的尋路遊戲來理解。

設想有一棵"星形樹"：中間有一個起點，從起點出發，分出若干條等長的樹枝，每條樹枝末端有一個終點。現在告訴AI：起點在哪裡，目標終點在哪裡，整棵樹的結構是什麼——但所有節點的編號都被隨機打亂了，順序也被隨機排列。AI的任務只有一個：告訴我，從起點走出去，第一步應該邁向哪個節點？

贊助商廣告

這個遊戲設計得相當狡猾。由於所有樹枝長度完全相同，AI沒有任何捷徑可以走——它不能靠"哪條路更短"來判斷，也不能靠"離目標更近"來猜測，唯一的辦法是真正地"想清楚"：從目標節點倒推，一步一步地沿著路徑往回追溯，直到找到起點的直接鄰居。這就像你在一個沒有任何地標的迷宮裡，只知道出口在哪，必須從出口反向摸回起點附近的第一個岔路口。

樹枝的長度（研究中用字母m表示）直接決定了AI需要在腦子裡走多少步。樹枝長度是3，就需要3步隱藏推理；長度是5，就需要5步；以此類推。樹枝數量（字母k）則決定了任務有多"寬"——分叉越多，每次選錯的代價越大。通過精確控制這兩個參數，研究團隊可以像調節旋鈕一樣，精確控制測試的難度，同時明確知道完成任務"理論上需要幾步思考"。

最關鍵的一點是：AI只被告知最終答案是否正確，中間過程完全沒有任何指導。這就像讓一個學生做題，老師只說"對"或"錯"，從不告訴任何解題思路。在這種條件下，AI能自己摸索出多步驟的解題策略嗎？

**三、從"嬰兒級"小模型到"旗艦級"大模型，統統被一堵牆攔住**

研究團隊測試了一系列規模差異巨大的模型，構成了一個完整的能力譜系。

規模最小的是一個從零開始訓練的微型Transformer模型，只有160萬個參數——這在AI界幾乎算是"玩具"級別，體量只有GPT-4o的幾十萬分之一。研究人員選擇這個極小模型的理由很充分：它沒有任何預訓練知識，所有能力都是從這道題目中從零習得的，因此最能純粹地反映"發現隱藏推理策略"的本質難度。

測試結果打破了之前學界的悲觀預期。在此之前，有研究認為標準的訓練方式（即只根據最終答案給反饋的"下一詞預測"訓練）根本無法讓模型學會真正的隱藏規劃策略。然而這個只有160萬參數的小模型，確實在3步的任務上學會了一套有效的規劃策略，在多種樹枝數量配置下都能表現出遠超隨機猜測的準確率。

贊助商廣告

然而，當樹枝長度從3增加到4，情況就發生了戲劇性的轉變——性能直接從近乎完美跌落到與隨機猜測無異。更令人困惑的是，研究團隊嘗試把這個小模型做得更深（從8層增加到16層、32層），或者增加注意力頭數量，或者擴大隱藏維度，全部徒勞無功：深度瓶頸依然牢不可動地卡在第4步。

接下來，研究團隊引入了規模大得多的開源語言模型：Qwen 2.5系列（7B和32B參數）以及Qwen 3系列（8B和32B參數）。這些模型在訓練之前已經在海量文本上預訓練，具備豐富的世界知識。針對星形圖尋路任務，研究團隊對它們進行了專項微調——給出大量訓練樣本，讓模型通過只看最終答案是否正確的反饋來自我提升。

結果揭示了一個規律：規模更大的模型確實在"廣度"上表現更強。那個小Transformer在樹枝數量達到10的時候會完全失去方向，而7B級別的Qwen模型能輕鬆應對10條樹枝的情形。但在"深度"上，進步卻極為有限——7B的Qwen 2.5同樣在第4步遭遇了完全的失敗，與160萬參數的小模型處於同一水平線上。32B的模型們將上限推進到了第5步，GPT-4o經過微調後也達到了第5步。隨後，研究團隊以零樣本和少樣本提示的方式測試了當時最新的GPT-5.4，發現它的上限大約在第7步——但即便這已經是目前測試到的最高成績，仍然是一道相當淺的天花板。

最觸目驚心的對比是：從160萬參數的玩具模型，一路擴展到GPT-4o這樣的旗艦級大模型，隱藏推理深度只從3步增加到了5步，淨增長僅僅2步。這兩種模型在算力消耗、訓練成本、參數數量上相差了何止千倍，但在"發現隱藏推理策略的深度"這個維度上，差距小到令人瞠目結舌。

**四、AI的大腦在幹什麼？偷窺它的"注意力地圖"**

為了弄清楚模型內部究竟發生了什麼，研究團隊對那個從零訓練的小Transformer做了一次"內窺鏡檢查"——可視化它的注意力分布。

所謂注意力，可以類比為人在閱讀時目光的停留。當你解一道題時，有些文字是你反覆掃視的關鍵資訊，有些則是你忽略的背景。Transformer模型的每一層都有類似的機制，在處理問題時會對輸入中的不同部分分配不同的"關注權重"。

贊助商廣告

研究團隊提出了一個叫"回溯比率"的指標，專門衡量模型把多少注意力集中在從目標到起點的那條路徑上。如果模型只是在漫無目的地猜，這個比率應該接近均勻分布；如果模型真的在"從目標倒推"，這個比率應該明顯偏高。

觀察結果清晰地印證了這一猜想。對於那些模型成功解決的配置（比如樹枝數4或5，深度3步），注意力地圖顯示出了一個非常有規律的"倒追"模式：在較淺的網路層，模型的注意力主要集中在目標節點；隨著層數加深，注意力逐漸沿著路徑向起點方向移動，就像偵探從案發現場一步步追溯到嫌疑人的行蹤一樣。這種層與層之間有序傳遞、逐漸回溯的模式，正是"從目標反向追蹤到起點"策略的直接體現。

相對地，對於那些模型失敗的配置，注意力地圖完全是一片混亂，看不出任何有意義的規律。這說明失敗的原因不是模型在用一個錯誤的策略，而是根本沒有找到任何有效的策略。

這個發現還解釋了為什麼樹枝數量為2時情況有些特殊。當只有兩條路時，模型根本不需要從目標倒推——它可以隨便選一條路，如果走不到目標，就選另一條。這種"排除法"不需要真正的多步規劃，所以在這個特殊情形下，注意力分布雖然均勻，但模型仍然能正確作答。

**五、發現策略是一關，駕馭策略又是另一關**

這項研究還揭示了一個微妙而重要的區分，類比起來就是"學會一道菜的方法"和"實際烹飪時能把這道菜做好"之間的差距。

研究團隊對每個開源模型都做了一個額外測試：選出該模型在訓練中能成功掌握策略的最複雜配置，然後用這個配置下訓練好的模型，去挑戰它從未接觸過的更深層次任務——比如，訓練時只見過5步的題目，測試時給它6步、7步乃至8步的題目。

這個測試的結果出人意料地樂觀。絕大多數模型在測試深度略超過訓練深度時，仍然能維持相當不錯的表現，性能是隨著深度增加而逐漸衰減的，而不是像訓練階段失敗那樣的斷崖式崩潰。Qwen 3-32B在超出訓練深度3步的範圍內仍能顯著超越隨機猜測；GPT-4o甚至能超出訓練深度4步。這意味著，一旦模型成功地在訓練中內化了"從目標反向追蹤"這種策略，它就能把這個策略延伸應用到更長的路徑上。

贊助商廣告

這種"泛化能力"和"發現能力"之間的差距，構成了整篇論文最有洞察價值的發現之一。模型在訓練時發現不了6步、7步、8步策略，但若先在5步任務上學會了策略，它就能在測試時自己延伸到8步。策略的發現是瓶頸，策略的執行則更有彈性。就好比一個人學會了"從結論反推前提"的邏輯方法，他能在考場上把這種方法運用到更複雜的題目上，但如果他根本沒有經歷過足夠簡單的入門題來學會這種方法，就永遠邁不過這個門檻。

為了進一步理解失敗的性質，研究團隊還詳細分析了模型出錯時的"錯誤類型"。他們把錯誤分為三類：模型預測了起點的直接鄰居但選錯了樹枝（1跳鄰居錯誤）；模型選對了樹枝但沒走到正確位置（路徑內錯誤）；以及完全偏離（路徑外錯誤）。

檢測結果顯示了一個驚人的模式：在那些超出模型泛化能力的深度配置下，錯誤中"路徑內錯誤"的比例極高——對於Qwen 2.5-7B來說，95%的錯誤都屬於這一類。也就是說，模型知道應該走哪條樹枝，也確實走上了正確的方向，但在倒推的過程中"數不到頭"，在某一步上卡住了。這進一步印證了"泛化天花板"的存在：策略是對的，執行力撐不到終點。

**六、只要"寫出來"，二十步都不在話下**

研究的最後一部分做了一個鮮明的對照實驗，目的是驗證：這些任務本身真的很難嗎？還是只是"隱藏推理"這種方式很難？

答案非常清晰。研究團隊讓模型不再只輸出最終答案，而是把整個"從目標節點一步步倒推回起點"的過程都寫出來，作為訓練時的目標輸出。換句話說，讓AI做一道"展示解題過程"的題，而不是"只寫答案"的題。

在這種"顯式思維鏈"的訓練設置下，所有被測試的語言模型——包括Qwen 2.5系列和Qwen 3系列——只需要大約20步訓練就完全收斂，對深度為20步的任務也能保持接近完美的準確率。同樣的任務，在隱藏推理模式下根本無法學會，在顯式推理模式下卻輕而易舉——這有力地說明，天花板的根源不在任務本身，而在於"不寫過程只看結果"的訓練方式給模型發出的信號太稀疏、太微弱，無法引導它發現並固化多步驟的內部推理策略。

贊助商廣告

研究團隊還嘗試了一種更有趣的"漸進內化"方案：先讓模型學會完整的顯式推理鏈，然後每次把推理鏈的第一個詞從輸出里刪掉，強迫模型把那一步"吞進腦子裡"，如此循環，逐步把整個推理過程壓縮成隱藏狀態。結果是，通過這種方式，那個只有160萬參數的小模型確實能夠在簡單的2條樹枝配置下完成深達6步的隱藏推理——遠超它在直接訓練下的3步上限。但一旦樹枝數量增加，這種方式同樣會遇到瓶頸，因為模型本身的儲存容量成了新的限制。

**七、這對AI安全意味著什麼**

這項研究最深遠的意義在於它與AI安全領域的直接關聯。

當前，監控AI行為的一種重要思路是"思維鏈監控"：讓AI把推理過程寫出來，然後讓人類或另一個AI來審查這些推理步驟，看是否有異常或危險的意圖。這種方法的前提假設是：AI如果想完成複雜的推理或規劃，必須把過程寫出來——否則它沒有足夠的"工作空間"來完成複雜計算。

這項研究的發現為這個假設提供了來自實驗的支撐。在精心設計的測試中，大型語言模型在隱藏推理深度上存在一個相對有限且難以通過單純擴大規模來突破的天花板。當任務需要真正複雜的多步驟推理時，模型確實傾向於依賴外化的思考鏈，而不是能夠完全在"腦子裡"默默完成。

當然，研究團隊也非常謹慎地指出這個結論的適用範圍。星形圖尋路是一個經過精心設計以消除所有捷徑的"純粹"推理任務，而現實世界中的複雜任務往往包含更多的局部線索和啟發式資訊，這些可能會改變結論。此外，目前最強大的閉源模型（如今天的最新版本）無法被研究團隊直接微調，對它們的評估只能通過提示來進行，這在方法上有一定局限性。

與此同時，來自其他研究的證據也與這個發現方向一致：在需要隱含的兩步推理（比如"A認識B，B認識C，所以A可能認識C"這種"關係傳遞"）的任務上，語言模型也表現出明顯的局限性。這提示天花板現象可能不只出現在圖尋路任務中，而是一種更普遍的隱藏多步推理局限。

贊助商廣告

歸根結底，這項研究傳遞的資訊是：在今天的技術水平下，如果一項任務真的需要多步驟的精密推理，語言模型很可能必須把過程寫出來才能完成——無論是被訓練成這樣做，還是被提示去這樣做。這既是一個技術上的局限，也恰好是一個對於人類監控AI行為來說幸運的保障。思維鏈監控作為一種安全手段，因此具有相當的現實基礎，而不只是一種美好願望。

當然，沒有任何一項研究能蓋棺論定。隨著訓練方法的革新、架構的進化，以及更多針對"隱藏推理能力"的專項優化，這個天花板未來會不會被打破，還需要持續的觀察和研究。這正是研究團隊在論文末尾呼籲的：弄清楚潛在推理能力在不同任務領域的邊界，將是建立對思維鏈監控信任的關鍵方向。

說到底，這項研究做了一件很有意思的事：它把"AI能不能背著我們偷偷想事情"這個原本模糊的問題，變成了一個可以用實驗精確測量的問題，並且給出了當前最好的答案——能，但沒你以為的那麼厲害，而且規模大小對這件事的改善相當有限。這不是一個讓人徹底放心的結論，但至少比"完全不知道"要好得多。對於關心AI未來走向的普通讀者來說，這項研究就像給AI大腦裝了一把刻度尺，讓我們對它的邊界有了更清晰的感知。對原論文感興趣的讀者，可以通過arXiv編號2604.06427找到完整版本。

---

Q&A

Q1：什麼是"思維鏈監控"，為什麼它對AI安全很重要？

A：思維鏈監控是一種AI安全方法，要求AI在給出答案時寫出完整的推理步驟，讓人類或監控系統能夠審查AI"在想什麼"。它的重要性在於：如果AI只給出最終答案，外界無法判斷它的推理過程是否合理或存在危險意圖；但如果AI把每一步思考都明確寫出來，監控者就有機會在問題發生前介入。這項研究的意義正在於證明，對於複雜任務，AI確實很難在不寫出過程的情況下獨立完成推理，從而為思維鏈監控的有效性提供了實驗依據。

贊助商廣告

Q2：星形圖尋路任務和現實中的AI推理任務有什麼關係？

A：星形圖尋路是一個經過精心設計的"純推理"測試，它消除了所有可以走捷徑的線索，強迫模型進行真正的多步驟邏輯推理。這種設計的價值在於它可以精確控制推理深度，從而像用刻度尺量長度一樣量化AI的隱藏推理能力。現實任務（如代碼生成、數學證明）往往含有更多輔助資訊，難度結構更複雜，但從這個純淨測試中得到的結論——即隱藏推理深度存在上限且難以靠擴大規模突破——為理解AI的推理本質提供了基準參考。

Q3：把語言模型規模擴大十倍，隱藏推理深度會大幅提升嗎？

A：根據這項研究，答案是否定的。從只有160萬參數的小模型，一直擴展到參數量大幾十萬倍的GPT-4o，隱藏推理發現深度只從3步提升到了5步，淨增長僅2步。研究者發現，擴大模型規模主要改善的是處理更多分支（"廣度"）的能力，而不是處理更多推理步驟（"深度"）的能力。規模擴大帶來的邊際收益隨著深度增加而急劇遞減，說明這個瓶頸有著更深層的結構性原因，不能單靠"把模型做得更大"來解決。