埃森哲AI架構師揭秘：讓AI學會「看人下菜碟」的省力新招法

這項由埃森哲公司AI架構師主導的研究以預印本形式發布於2026年6月，論文編號為arXiv:2606.08327，有興趣深入了解的讀者可通過該編號查詢完整原文。

贊助商廣告

每一個字都得認真對待，這是語文老師的要求。但對於AI來說，這種"一視同仁"的態度其實相當浪費。你有沒有想過，當AI在處理一段文字時，面對"的"、"了"、"嗎"這類再普通不過的詞，和面對"他到底在指代誰"這種需要聯繫上下文才能判斷的複雜問題，付出的計算代價卻是完全一樣的？這就好比一個廚師，不管是切一顆蔥還是處理一條整魚，都要花同樣的時間和力氣——顯然不合理。這項研究要解決的，正是這個"大材小用"的問題。

一、為什麼AI處理文字會這麼"不會省力"

要理解這個問題，先得知道現代AI語言模型的核心機制叫做"自注意力機制"（Self-Attention）。你可以把它理解成一種"全員開會"的工作方式：每當AI處理文字中的某一個詞，它都要把這個詞和文章里所有其他的詞逐一比對，思考"我和你有沒有關係"，然後綜合所有比對結果來理解這個詞的含義。

這種全員參與的開會方式非常強大，因為它能捕捉到任意兩個詞之間的關聯，哪怕它們相隔很遠。但問題也在這裡——這種開會的成本隨著文字數量的增加會急劇膨脹。文字數量翻倍，計算量就要翻四倍。更關鍵的是，很多詞根本不需要開全員大會。"的"這個字出現在哪裡，含義都差不多，用不著把全文所有詞都拉來比對一遍。

這就是研究的出發點：能不能讓AI學會"看詞下菜碟"，對簡單的詞用簡單的處理方式，把昂貴的全員開會只留給真正需要它的複雜詞？

二、從明暗對比畫法里找到靈感

研究團隊給這個新方法起了一個很有意思的名字——CHIAR-Former，靈感來自西方繪畫中一種叫做"明暗對比法"（Chiaroscuro）的技術。這種技術在達芬奇、倫勃朗的畫作中極為常見：畫家只在需要表現的重點區域精雕細琢，用濃重的陰影和明亮的光線塑造立體感，而背景則處理得相對簡單。

贊助商廣告

這個比喻非常貼切地描述了研究的核心思路：把計算資源集中花在"暗處"——那些真正複雜、需要精細處理的詞上，而對"明處"的簡單詞則用更經濟的方式快速處理。

為了實現這個思路，研究團隊設計了三種不同"處理檔位"。第一檔叫做DCT頻譜混合，是最省力的方式，適合處理簡單、規律性強的詞。第二檔叫做RBF核函數混合，介於中間，適合處理有一定複雜度但仍有局部規律的詞。第三檔就是完整的自注意力機制，也就是前面說的"全員開會"，留給那些真正複雜、需要聯繫全文才能理解的詞。

要讓這個系統運轉起來，首先要解決的問題是：AI怎麼判斷一個詞應該用哪個檔位？

三、用"頻率能量分布"來給詞的複雜度評分

研究團隊提出了一個叫做"頻譜熵"（Spectral Entropy）的量化指標，專門用來衡量每個詞的複雜程度。這個概念初聽起來很抽象，但用音樂來類比就容易理解了。

一段純淨的單音（比如笛子吹出的"哆"），它的能量完全集中在一個頻率上，其他頻率基本沒有能量。而一段嘈雜的噪音或者複雜的和弦，能量則均勻分散在各個頻率上。頻譜熵就是在衡量這種"能量分散程度"——越集中，熵值越低；越分散，熵值越高。

把這個概念用到文字處理上：每個詞在AI內部有一個數字向量（可以理解為這個詞的"數字畫像"）。研究團隊對這個數字畫像做了一種叫做DCT（離散餘弦變換）的數學操作，提取出它的"頻率能量分布"。如果一個詞的能量高度集中在少數幾個頻率上，說明這個詞結構簡單、可預測性強，熵值低，適合用簡單的處理方式。如果能量分散在很多頻率上，說明這個詞複雜多變，熵值高，需要動用全員開會的昂貴方式。

研究團隊還從數學角度證明了這三種處理檔位各有其理論依據。對於低熵的簡單詞，DCT處理能保證重建誤差被限制在一個可控範圍內；對於中等熵的詞，RBF核函數能通過一種叫做Bochner定理的數學結論，近似捕捉詞與詞之間的局部相似性；而對於高熵的複雜詞，只有完整的注意力機制，才能通過動態的跨詞投影來最小化誤差。

贊助商廣告

四、架構設計：四層樓的"分工合作"

CHIAR-Former整體上是一個四層結構的模型，每一層負責不同的任務，有點像一棟四層樓的工廠，每層流水線做不同的加工。

第一層是"頻譜預處理層"，固定對所有詞使用DCT混合處理。這一層不做複雜的判斷，就是給所有詞統一做一遍頻率域的"底層加工"，提取出它們的低頻結構資訊。你可以把它理解成工廠流水線的第一道工序：先給所有原材料做一次基礎清洗和分類。

第二層是"初步分揀層"，會根據每個詞的頻譜熵，決定是繼續用DCT處理還是升級用其他方式處理。在原始設計的三檔版本里，這裡是DCT和RBF二選一；在後來優化的兩檔版本里，這裡變成了DCT和注意力二選一。

第三層的邏輯類似，但面向更高層次的結構。第四層則固定對所有詞使用完整的自注意力機制，作為整個流水線的最後精加工環節，確保模型的輸出表達能力不打折扣。

在實際路由時，模型計算每個詞的頻譜熵值，與一個叫做"τ"（tau）的閾值做比較：低於閾值的走便宜通道，高於閾值的走昂貴通道。這個閾值不是隨意設定的，而是在訓練結束後，統計驗證集上所有詞的熵值分布，取33%和67%分位數來校準——就像量體裁衣，先量了尺寸再劃分檔位。

有一個細節值得一提：這個路由判斷是完全獨立地針對每個詞進行的，詞與詞之間的路由決策互不影響，每個詞只根據自己的熵值決定走哪條路，計算效率很高。

五、一個出人意料的發現：三檔變兩檔反而更好

按照原始設計，研究團隊準備了三個處理檔位——DCT、RBF和注意力。但在實際訓練中，出現了一個意外：模型幾乎完全拒絕使用RBF這個中間檔位，超過98%的詞要麼走DCT，要麼走注意力，留給RBF的份額不到2%。

這種現象在AI領域有一個專門的名詞叫"路由坍塌"（Routing Collapse）：本來設計了多個可選項，但模型訓練後發現只用其中一部分就夠了，其餘的被自動拋棄。在很多類似的AI系統（比如混合專家模型）里，路由坍塌通常被視為問題，意味著系統沒有充分利用所有可用資源。

贊助商廣告

但研究團隊換了一個角度看待這件事：坍塌不是失敗，而是發現。模型用實際行動告訴我們，RBF和DCT其實在功能上高度重疊——DCT的低頻分量本來就能捕捉詞與詞之間的局部相似性，而RBF做的也是同樣的事情，只是換了一套數學工具。兩個工具捕捉的是同一種底層結構，模型當然會自動選擇更熟悉、更高效的那個。

順著這個思路，研究團隊直接把RBF從架構中移除，專門設計了一個只有DCT和注意力兩個檔位的精簡版本，並命名為CHIAR DCT+Attn。結果出乎意料地好：這個精簡版不僅不比原來的三檔版差，反而明顯更好——因為它徹底消除了RBF這條冗餘路徑可能造成的計算浪費。

六、實驗結果：大數據集上的驚艷表現

研究團隊在四個不同的數據集上測試了CHIAR-Former的表現，每個數據集代表一種不同的應用場景。

最核心的測試在WikiText-103上進行，這是一個包含1.18億個詞的大型維基百科文章數據集，是語言模型領域的標準測試場。衡量語言模型好壞的指標叫"困惑度"（Perplexity，PPL），數值越低說明模型對文字的預測越準確。全注意力的基準模型在驗證集上的困惑度是66.62，而CHIAR DCT+Attn版本做到了36.54——降低了45%。同時，注意力計算的運算量減少了62.5%，總體計算量減少了40.8%。

這個結果非常直觀：用更少的計算換來了更好的效果。為什麼會這樣？研究團隊認為，DCT作為早期層的"底層加工"，能夠自動提取出自然語言的低頻結構特徵——比如句子的語法模板、話題的連貫性、短語級別的規律性。這些都是自然語言中大量存在的"平滑"結構，非常適合DCT處理。當注意力機制在後續層接手這些經過預處理的詞表示時，它面對的是已經被梳理過的、結構更豐富的輸入，相當於站在更高的起點上繼續工作，自然能做得更好。

在訓練過程中，所有CHIAR變體都比基準模型收斂得更快，在早期訓練階段就能達到更低的損失值。這進一步印證了DCT提供的歸納偏置效果：模型不需要從零開始學習語言的低頻統計規律，DCT已經把這些規律以數學的形式"內置"進來了，釋放出了寶貴的學習容量用於更高層次的模式。

贊助商廣告

七、在情感分析任務上：幾乎打平，但少花了很多

研究團隊還在IMDB電影評論情感分類任務上做了測試。這個數據集包含2.5萬條電影評論，每條平均230個詞，任務是判斷評論是正面還是負面。

基準的全注意力模型準確率是84.96%，CHIAR DCT+Attn版本是83.72%，差距只有1.24個百分點。研究團隊特別指出，這個差距比正常的隨機種子實驗誤差還要小，在統計意義上兩個模型可以視為等價的——換句話說，CHIAR用62.5%更少的注意力計算量，做到了和全注意力幾乎完全一樣的分類效果。

對於一個需要處理長文檔的實際應用來說，這是一個相當實用的結果：如果你要部署一個評論分析系統，選擇CHIAR意味著計算成本大幅降低，而效果幾乎沒有損失。

八、兩個"失利"同樣值得關注

研究團隊沒有迴避那些不太好看的結果，反而認為它們和成功案例同等重要，因為它們清晰地標出了CHIAR-Former的適用邊界。

第一個"失利"來自WikiText-2，這是WikiText-103的一個小子集，只有240萬個詞。在這個小數據集上，全注意力基準模型的測試困惑度是75.19，而CHIAR DCT+Attn是83.81，差了將近12%。研究團隊把這個結論歸結為數據量不足：當訓練數據太少時，模型沒有機會見到足夠多樣的詞，路由機制無法學到可靠的"哪類詞該走哪條路"的規律。而全注意力機制不需要這種分工學習，它對每個詞一視同仁，在小數據上反而能更快地學到有用的模式。

第二個"失利"來自ListOps任務，這是一個合成的符號邏輯任務：給AI一串嵌套的最大值、最小值、平均值操作，讓它算出結果，例如"從這堆數里取最大值，再和另一堆數的最小值比較"。全注意力基準模型在這個任務上的準確率高達98.85%，而CHIAR DCT+Attn只有63.35%，差距接近35個百分點。

原因也很清楚：ListOps是一個需要精確符號計算的任務，模型要嚴格區分"MAX"、"MIN"、"MEDIAN"這些操作符號，以及精確的整數邊界。DCT的頻譜預處理擅長捕捉"平滑的統計規律"，但它會在一定程度上平滑掉這些精確的符號邊界——而這恰恰是ListOps最需要保留的資訊。全注意力機制沒有這種預處理的"干擾"，能直接記住這些精確的操作規則。

贊助商廣告

九、適用邊界的"地圖"

綜合四個數據集的結果，研究團隊畫出了一張CHIAR-Former的適用"版圖"。橫軸是數據集規模，縱軸是任務類型（自然語言還是符號邏輯）。在大規模自然語言任務上，CHIAR-Former明顯占優；在小數據集的自然語言任務和符號邏輯任務上，全注意力更強。

簡而言之，CHIAR-Former適合那些數據量大、文字風格自然的場景，比如大規模文章的語言建模、長文檔的情感分析。而對於數據量有限的場景，或者需要精確符號推理的任務，還是應該用傳統的全注意力方式。

研究團隊還對這套發現提煉出了一個更普遍的方法論原則：當你在AI里設計了多個可選的計算路徑，然後發現訓練後模型自發地集中在其中某幾條路上，不要急著"修復"這個坍塌。先研究一下，坍塌本身可能就是模型在告訴你"哪些操作組合才是真正必要的"。驗證這個直覺的方法，是直接把被拋棄的選項移除，設計一個專門實現坍塌配置的精簡架構，看看它是否真的更好——CHIAR-Former的實驗正是這麼做的，結果證明這條路是對的。

十、與同類方法的比較和差異

這項工作和之前已有的一些提高AI效率的研究有明顯的差別，研究團隊專門對此做了梳理。

在和FNet的比較上：FNet是一個用傅里葉變換替代所有注意力層的方案，它的邏輯是"全部改掉"。CHIAR-Former的邏輯則是"選擇性使用"，只對那些適合頻譜處理的詞使用DCT，其餘詞仍然走注意力。這種選擇性的精細分工，帶來了比全部替換更好的效果。

在和混合專家模型（MoE）的比較上：MoE的路由坍塌是結構上相似的多個"專家"之間發生的，坍塌往往意味著有些專家的參數被浪費了。CHIAR-Former的路由坍塌是在結構和計算性質根本不同的操作之間發生的——DCT是固定的數學變換，注意力是動態的數據驅動計算，兩者本質不同。當這種異質的路由系統發生坍塌，資訊量更大，說明的是"在這種任務和模態下，某種類型的計算是冗餘的"，而不只是"某個參數化實例沒被充分利用"。

贊助商廣告

在和Mixture-of-Depths（按層跳過計算）的比較上：那類方法選擇跳過某些層不做計算；CHIAR-Former不跳過任何層，而是在同一層內切換更便宜的計算操作。兩者是互補的，理論上可以結合使用。

在和FlashAttention的比較上：FlashAttention是在硬體層面優化注意力計算的執行效率，不減少參與注意力的詞的數量；CHIAR-Former則是減少被路由到注意力的詞的數量，兩個維度的優化互不衝突，未來可以同時應用。

說到底，這項研究做的事情可以用一句話總結：教會AI"省著點用力"。它發現了一個簡單但有效的原理——語言裡的詞有複雜度之分，不同複雜度的詞用不同成本的處理方式，既省力又可能更準確。

研究中那個"三檔變兩檔"的意外收穫，可能是整篇論文裡最有啟發性的部分。它告訴我們，當一個系統自發地簡化自己，我們應該認真傾聽這個信號，而不是強行把它"修復"回複雜的樣子。模型的"偷懶"有時候是在揭示一個更簡潔的真相。

當然，這套方法目前也有明顯的局限：17.4M參數的小模型在現實的大規模部署場景里算是微型產品，在大模型上能不能復現這種效果，還需要進一步驗證。閾值校準依賴訓練後的數據統計，換一個語料或者換一種分詞方式，就需要重新校準。這些都是留給未來的問題。

如果你對這個方向感興趣，可以通過編號arXiv:2606.08327查閱完整論文，裡面有詳細的數學推導、實驗數據和架構細節，可以對照上面介紹的內容做更深入的了解。

Q&A

Q1：CHIAR-Former的"頻譜熵路由"和普通Transformer的注意力機制有什麼根本區別？

A：普通Transformer對每個詞都用同樣昂貴的"全員開會"方式處理，計算量隨詞數呈平方增長。CHIAR-Former給每個詞算一個"複雜度評分"（頻譜熵），評分低的詞用便宜的DCT數學變換處理，評分高的詞才動用完整的注意力機制。核心區別在於，這是基於信號處理理論的按需分配，不是隨機跳過，有理論依據保證簡單詞用DCT不會損失太多資訊。

贊助商廣告

Q2：為什麼CHIAR-Former在WikiText-2小數據集上反而更差？

A：CHIAR-Former的路由機制需要從數據中學習"哪類詞走哪條路"，這本身需要足夠多樣的訓練樣本。WikiText-2隻有240萬詞，詞的多樣性不夠，路由器學不到可靠的分工規律。全注意力機制沒有這種學習負擔，對每個詞一視同仁，在小數據上學習效率反而更高。簡單說：CHIAR需要足夠大的數據集才能發揮"分工"的優勢。

Q3：路由坍塌為什麼在CHIAR-Former里是好事，但在混合專家模型里是壞事？

A：混合專家模型里，各個"專家"結構相同只是參數不同，坍塌意味著部分專家的參數白白占用內存卻沒被使用，是資源浪費。CHIAR-Former里，DCT、RBF、注意力三者在數學性質上根本不同，坍塌是模型在告訴我們"RBF和DCT捕捉的是同一種結構，留一個就夠了"——這是有資訊量的發現，移除RBF後性能反而提升，說明坍塌識別出了真正的冗餘。