埃森哲AI架構師提出「層路由」技術：讓AI大腦學會「偷懶」，處理簡單任務時跳過多餘思考步驟

這項由埃森哲（Accenture）班加羅爾團隊的AI架構師獨立完成的研究，以預印本形式發表於2026年6月1日，論文編號為arXiv:2606.01838，有興趣深入了解的讀者可通過該編號在arXiv平台查閱完整論文。

贊助商廣告

一、聰明人也該懂得"看菜下飯"

人有聰明的大腦，但聰明人做事也分場合。寫一首詩和回答"今天是星期幾"，用的腦力絕對不一樣。你不會為了查日曆而冥思苦想半小時，也不會在寫長篇小說時只用五秒鐘草草了事。

現代AI助手，尤其是那些能幫你查資料庫、調用工具、制定計劃的"智能體"系統，每天都要處理這兩類天差地別的任務。一類是指令式的工具調用，比如"查詢訂單號為100023的產品資訊"——這種指令短、結構固定，答案幾乎是唯一的；另一類是開放性的推理規劃，比如"制定一個應對用戶留存率下降的優先級策略"——這種任務需要大量思考，答案千變萬化。

問題在於，現有的AI系統對待這兩種任務一視同仁，每次都動用全部"腦力"，把所有的計算層從頭到尾走一遍，就像不管是簽個名還是寫部長篇小說，都要坐下來正襟危坐思考三個小時。這不僅浪費，而且完全沒必要。

正是為了解決這個問題，這位來自埃森哲的研究者提出了一種名為"LayerRoute"（層路由）的輕量級適配技術。它的核心思想是：讓AI模型學會根據當前任務的難度，自動決定哪些計算步驟可以跳過。簡單的任務少思考幾步，複雜的任務則全力以赴。這項技術的效率之高令人印象深刻——整個訓練過程只需要6.4分鐘，占用的額外參數還不到原始模型的0.3%。

二、AI大腦的"樓層"：為什麼可以跳過中間那些層？

要理解LayerRoute，首先需要了解AI語言模型的基本結構。可以把一個大型語言模型的內部想像成一棟高樓，每一層樓代表一個"變換器塊"（transformer block）。資訊從底層進入，經過每一層的加工和提煉，最終從頂層輸出答案。

贊助商廣告

這棟樓的底層負責"認字識詞"，建立對輸入內容最基本的理解；中間層負責更深層的語義推理和關聯分析；頂層則負責最終的輸出整合。不同樓層承擔不同的任務，各有分工。

研究者發現，對於那些簡單、結構化的工具調用指令，模型在走到樓層中段時就已經"想清楚了"，中間那幾層樓基本上對最終答案沒什麼貢獻，卻仍然要硬走一遍。這就好比你去便利店買瓶礦泉水，本來一樓就能搞定，卻非要坐電梯到二十四樓轉一圈再下來。

本研究選用的底座模型是阿里巴巴開源的Qwen2.5-0.5B-Instruct，這是一個擁有24個變換器塊、隱藏層維度為896的小型語言模型，總參數量約為4.94億。研究者在這個模型的每一層都加裝了兩個小裝置：一個"路由器"負責決定要不要跳過這一層，一個"低秩適配器"（LoRA）負責微調這一層的行為。整個模型的主體權重保持凍結不動，只有這兩個小裝置接受訓練。

三、路由器是怎麼"決策"的？

路由器的設計非常精巧，卻也極為簡潔。對於模型的第i層（i從0到23），路由器首先把進入這一層的資訊流做一個簡單的平均，得到一個代表當前"語境"的向量，然後用一個只有897個參數的微型線性函數把這個向量壓縮成一個數字，再經過一個S形函數（sigmoid）把它變換到0到1之間。

關鍵的決策規則是：如果這個數字超過0.5，就"開門"，正常執行這一層的計算；如果不足0.5，就"關門"，讓資訊直接穿過這一層不做任何處理，這一層的計算成本就直接歸零。這個"開"與"關"的決定是硬性二值的——不是模糊的"多少參與一點"，而是乾脆利落的"全開"或"全關"。

這裡藏著一個工程上的小難題：這種硬性的0/1決策本身是不連續的，無法直接用梯度下降來訓練（梯度在斷點處無法計算）。研究者採用了一種叫做"直通估計器"（straight-through estimator，STE）的技巧來繞開這個障礙。簡單說，前向傳播（做預測時）用真正的硬性0/1決策；反向傳播（計算如何改進時）則假裝這個決策是連續可導的，讓梯度順暢地流過去。這樣一來，訓練階段和實際推理階段的行為完全一致，不存在"訓練說一套、實際做一套"的問題。

贊助商廣告

與此同時，LoRA適配器的工作原理是在原有權重矩陣旁邊加一個"低秩旁路"。原來的權重不動，新加的旁路只有很少的參數，卻可以通過訓練來微調模型的行為。具體來說，每一層的查詢（Q）、鍵（K）、值（V）和輸出（O）四個注意力投影矩陣都加了秩為8的LoRA適配器，共計1,081,344個參數。B矩陣初始化為全零，保證LoRA在訓練開始時對模型毫無影響，像一張白紙，等待訓練來填充內容。

四、訓練的秘密武器：正則化與"有偏"初始化

僅有路由器和LoRA，還不足以讓模型學會"聰明地偷懶"。訓練過程中有兩個關鍵設計，缺少任何一個都會導致系統失效。

第一個關鍵設計是"門控正則化"。訓練目標是兩部分之和：一是正常的語言模型損失（預測下一個詞的準確率），二是一個懲罰項，專門懲罰路由器把太多門都打開的行為。懲罰項的權重被設為1.0，與語言損失同等重要。

這個懲罰項的必要性可以這樣理解：如果沒有它，路由器完全可以採取一個"懶政"策略——把所有24扇門全部打開，讓所有層都正常運行，同時靠LoRA來彌補質量損失。在這種情況下，路由器的存在毫無意義。加入懲罰項之後，系統被迫去尋找哪些層是真正可以跳過而不影響質量的，這才是我們想要的行為。

第二個關鍵設計是"有偏初始化"。如果所有24個路由器都從同一個起點出發，它們在訓練初期的行為會完全一樣，梯度也會完全相同，導致模型無法區分哪些層該開、哪些層該關——這是一個典型的"雞生蛋、蛋生雞"的對稱性困境。

研究者的破解方案是：讓前8層（層0–7）和後7層（層17–23）的路由器從偏向"開門"的狀態出發（偏置設為+1.0，對應sigmoid值約0.73）；讓中間9層（層8–16）的路由器從偏向"關門"的狀態出發（偏置設為-1.0，對應sigmoid值約0.27）。這個設計有其理論依據——大量的變換器模型可解釋性研究表明，早期層負責基礎的詞彙和語法理解，晚期層負責輸出整合，這兩類層都至關重要；而中間層對於結構化、低難度的任務貢獻相對有限。

贊助商廣告

從訓練開始的第一步起，中間層就直接處於"跳過"狀態，模型的語言損失立即感受到"跳過這些層會怎樣"，從而產生有意義的梯度信號，驅動路由器朝正確方向調整。

五、用什麼數據訓練，訓練多久？

訓練數據的構成同樣體現了研究者對"智能體"工作場景的深刻理解。數據集混合了四個來源：工具調用類數據來自NousResearch的Hermes Function Calling v1（1893個樣本）和Glaive Function Calling v2（5000個樣本）；規劃推理類數據來自OpenAI的GSM8K數學推理數據集（5000個樣本）和TuringEnterprises的Turing Open Reasoning數據集（50個樣本）。總計10,749個訓練樣本和1,194個驗證樣本，按9:1的比例劃分。

所有序列使用Qwen的對話模板進行分詞，長度統一截斷或填充至512個詞元。訓練採用AdamW優化器，學習率為0.0002，配合餘弦退火調度，有效批次大小為16（實際批次4加梯度累積4步），訓練3000步。整個過程在一塊A100 40GB顯卡上完成，耗時381.9秒，約合6.4分鐘。

六、訓練過程中發生了什麼？

訓練曲線記錄了一段頗具戲劇性的動態演變過程。訓練剛開始的前50步，跳過率立刻飆升到約38%——這是"有偏初始化"帶來的直接效果，中間9層從第一步起就處於跳過狀態。

然後，從第50步到第500步，一場"拉鋸戰"展開了。隨著LoRA適配器逐漸學會在當前的層配置下產生高質量輸出，語言損失快速下降；與此同時，路由器也在接收來自語言損失的梯度信號，逐漸區分哪些跳過決策是有代價的、哪些是無代價的。跳過率在這個階段有所回落，從38%降至更低的水平。

從第500步到第3000步，系統進入穩定階段。跳過率在10%到18%之間波動（這種波動來自不同批次中工具調用和規劃步驟比例的隨機變化），語言損失最終收斂到約1.5。

七、最終學到的"規律"是什麼？

訓練結束後，路由器學到的門控模式非常清晰，幾乎像教科書一樣整潔。24個層被分成了兩個簇：層0到7和層17到23的sigmoid值穩定在約0.73，對應的硬性決策始終為"開門"；層8到16的sigmoid值穩定在約0.27，對應的硬性決策始終為"關門"。

贊助商廣告

這個"兩簇"結構從第50步就已經初具雛形，並在整個訓練過程中保持穩定。24個路由器的sigmoid值方差為0.050——這個數字的意義在於：如果所有路由器都收斂到同一個值（無論是全開還是全關），方差會接近0；正是0.050這個非零值證明了模型真正學到了有區別意義的結構。

值得一提的是，層8到16的所有路由器全都收斂到約0.274，彼此之間幾乎沒有區別。這說明模型學到的是一個"中間段整體跳過"的粗粒度策略，而非中間段內部的細粒度排序。這也成為論文明確指出的一個局限性和未來改進方向。

八、工具調用和規劃步驟，路由結果有什麼不同？

這是整個研究最核心的問題。在100個測試樣本（50個工具調用，50個規劃步驟）上的評估結果如下。

工具調用類輸入平均跳過了15.25%的層——換算成實際運行層數，是平均只跑了20.34層而非全部24層，FLOPs（浮點運算量，可以理解為"計算工作量"）減少了15.2%，每個序列的計算量從完整的377.7億次浮點運算降至320.1億次。

規劃推理類輸入平均跳過了2.34%的層，幾乎所有層都照常運行，FLOPs只減少了2.3%，降至368.9億次。

兩者之差——15.25%減去2.34%，等於12.91個百分點——就是論文核心指標"跳過差異"（skip differential）。這個數字證明了路由器確實學會了根據輸入類型做出不同的計算分配決策，而不是對所有輸入一視同仁。

通過論文中展示的具體樣本可以更直觀地感受這一點。對於"search_products(...)"這樣的工具調用，路由結果是"1111 1111 0000 0000 0 1111 111"，即中間連續多層被跳過，整體跳過率達29.2%；對於"Analyze customer churn patterns..."（分析用戶流失模式）這樣的規劃任務，路由結果是"1111 1111 0111 0111 1011 1100 01"，跳過率只有12.5%，而且跳過的層分散得更加零散。不同的工具調用指令觸發的跳過模式也各有差異，證明了路由器是真正基於輸入內容做判斷，而非簡單地固定跳過某幾層。

贊助商廣告

九、質量有沒有下降？

跳過了計算步驟，答案的質量會不會變差？實驗數據給出了出人意料的答案：不僅沒變差，反而變好了。

衡量語言模型質量的常用指標是"困惑度"（perplexity），可以理解為模型對正確答案的"把握程度"——困惑度越低，說明模型越確定、越準確。在工具調用任務上，帶有自適應層跳過的LayerRoute模型困惑度為3.454，而使用全部24層的基線模型困惑度為4.747，LayerRoute低了1.293。在規劃任務上，LayerRoute的困惑度為3.631，全層基線為4.928，低了1.296。

這個現象的解釋是：LoRA適配器在訓練過程中針對這兩類任務進行了專門的微調，帶來的質量提升超過了層跳過帶來的潛在質量損失。在工具調用任務上，LoRA適配帶來的損失改善為-1.310；在規劃任務上為-0.875。換句話說，LoRA的微調效果是如此顯著，以至於跳過一些層根本不是問題——整體效果仍然優於未經任何適配的原始基線。

十、和其他方法比，LayerRoute勝在哪裡？

研究者設計了四組對比實驗，每組都代表一種不同的設計選擇，幫助讀者理解為什麼LayerRoute的設計是這樣而不是那樣。

第一組對比是使用標籤監督的"LayerRoute-BCE"。這個版本不靠語言模型目標來驅動路由器學習，而是直接告訴路由器"工具調用應該跳過，規劃步驟應該運行"，用二元交叉熵損失來訓練。結果：工具調用跳過5.1%，規劃跳過4.8%，差異只有0.3%。這說明顯式標籤監督反而學不好，因為路由器沒有機會從實際的語言質量反饋中發現哪些層真正重要。

第二組對比是沒有門控正則化的"LayerRoute-NoReg"。去掉懲罰項之後，路由器幾乎完全不跳過任何層（工具調用0.1%，規劃0.1%），差異歸零。這直接驗證了正則化是驅動路由器"主動關門"的必要壓力。

第三組對比是使用統一初始化的"LayerRoute-UniformInit"。把所有24個路由器的初始偏置都設為+1.0（全部偏向"開門"），結果令人驚訝：規劃步驟的跳過率（10.9%）反而高於工具調用的跳過率（5.5%），差異為負值（-5.4%），方向完全顛倒。這證明了有偏初始化不僅影響跳過的數量，更決定了跳過的方向。

贊助商廣告

LayerRoute本身在工具調用上跳過15.25%，在規劃上跳過2.34%，差異12.91%，是所有方法中跳過差異最大的，且方向正確。

十一、這項技術有什麼局限？

研究者對這項工作的局限性持坦誠態度，在論文中明確列出了五點不足。

中間層形成了一個整體跳過的"單塊"，沒有內部差異。層8到16全部收斂到幾乎相同的sigmoid值，意味著模型沒有學會"這一層比那一層更重要"這樣的細粒度排序，只學會了"這一大段可以整體跳過"。更精細的內部路由可能帶來更大的計算節省，但需要不同的訓練信號設計。

整體計算節省仍然有限，工具調用最多節省15.2%的FLOPs。如果要實現更大幅度的節省，要麼需要提高正則化權重（但這可能損害質量），要麼需要引入逐詞元的路由機制（如Mixture of Depths所做的那樣，但那需要從頭訓練）。

對於規劃密集型的工作負載，LayerRoute幾乎不提供任何好處，因為規劃步驟本來就不應該被跳過，2.34%的跳過率帶來的節省幾乎可以忽略不計。

整個實驗只在0.5B規模的模型上進行，更大規模的模型（3B、7B乃至更大）中哪些層可以跳過，目前尚未可知。此外，Turing Open Reasoning數據集只貢獻了50個規劃樣本，數據量偏少，可能限制了路由器在規劃任務上的分辨能力。

十二、LayerRoute在整個AI推理優化領域的位置

研究者在論文中特別強調了LayerRoute與其他推理加速技術的互補關係。現有的推理加速技術大致可以分為幾類：投機解碼（speculative decoding）通過小模型提前猜測大模型的輸出來加速；PagedAttention優化了注意力計算的內存管理方式；FlashAttention提高了注意力計算的硬體利用率。這些技術優化的是"如何更高效地做完所有層的計算"，而LayerRoute優化的是"哪些層根本不需要做"。兩者從不同維度入手，可以疊加使用，帶來乘法效應的加速。

與最相近的"深度混合"（Mixture of Depths，MoD）技術相比，LayerRoute有一個根本性的不同：MoD是在詞元層面做路由（每個詞元去哪一層），而LayerRoute是在序列層面做路由（整個輸入序列決定哪些層跳過）。對於智能體系統來說，序列級別的路由更自然——"這是一個工具調用"是整個輸入序列的屬性，不是某個詞元的屬性。此外，MoD需要從頭訓練，而LayerRoute只需要在已有的預訓練模型上微調6.4分鐘，實用性大大提高。

贊助商廣告

說到底，LayerRoute做的事情可以用一句話概括：用0.22%的參數和6.4分鐘的訓練時間，教會一個AI模型在處理簡單工具調用時"少想幾步"，而在處理複雜規劃時"全力以赴"。12.91%的跳過差異和15.2%的FLOPs節省，證明了這個方向是可行的，雖然節省幅度還有提升空間。

歸根結底，這項研究的意義不僅在於那幾個百分點的效率提升，更在於它提出了一個清晰的問題框架：AI系統中不同類型的任務應該獲得不同的計算資源，而這種分配可以通過端到端學習自動發現，無需人工標註哪些步驟"簡單"、哪些步驟"複雜"。訓練目標本身——語言模型損失加上門控正則化——就足以讓系統從數據中歸納出這種區別。

這個思路對於未來的智能體系統設計有一定的參考價值。隨著AI助手越來越多地被部署在長期、多步驟的自主工作流中，推理效率的重要性會持續增加，而LayerRoute提供了一種輕量、快速、易於疊加的效率優化路徑。有興趣深入了解這項研究的讀者，可以通過arXiv:2606.01838查閱原論文。

Q&A

Q1：LayerRoute是如何判斷哪些層可以跳過的？

A：LayerRoute在每一層都部署了一個微型路由器，它讀取當前資訊流的"摘要"，計算出一個0到1之間的數字，超過0.5就正常運行這一層，低於0.5就直接跳過。路由器通過聯合訓練語言模型目標和"懲罰全開"的正則化項來學習這個判斷能力，訓練結束後中間層（第8到16層）對工具調用指令幾乎總是被跳過，對規劃任務則幾乎總是運行。

Q2：LayerRoute跳過部分層之後，輸出質量會變差嗎？

A：實驗結果顯示，LayerRoute的輸出質量不僅沒有下降，反而有所提升。工具調用任務的困惑度從4.747降至3.454，規劃任務從4.928降至3.631。這是因為LoRA微調帶來的質量提升超過了層跳過的潛在代價，兩者疊加後整體效果優於未經適配的原始模型。

Q3：LayerRoute需要多少計算資源來訓練？

A：LayerRoute的訓練成本極低，只需要在原始模型基礎上增加約110萬個可訓練參數（占模型總參數的0.22%），在單塊A100 40GB顯卡上訓練3000步，總耗時約6.4分鐘即可完成，訓練數據總量約1萬個樣本。

贊助商廣告