這項由FrontiersMind研究團隊完成的研究以預印本形式發布於2026年6月18日,論文編號為arXiv:2606.20945,有興趣深入了解的讀者可通過該編號查詢完整論文。
一、為什麼AI每次"讀文章"都要全力以赴?
每當我們用大語言模型處理一段很長的文字時,模型內部發生的事情有點像一個極度認真的學生在讀書——不管面對的是一篇哲學論文還是一句"嗯嗯好的",他都會把書中每一個單詞與其他所有單詞逐一比對,一字不落,絕不跳過。這種"一視同仁"的方式固然嚴謹,但代價極高:文章越長,比較的工作量就以平方級別暴漲。一篇一千個詞的文章需要進行約一百萬次比對,而一篇一萬個詞的文章則需要一億次。
這種機制在AI領域被稱為"自注意力"(Self-Attention),是現代大語言模型(Transformer)的核心引擎。它的工作方式可以理解為:模型為文本中的每個詞配備了若干個"閱讀視角",每個視角負責從不同角度理解這個詞與其他詞的關係。這些視角被稱為"注意力頭"。問題在於,無論一個詞是意義深遠的關鍵術語,還是毫無資訊量的標點符號,模型都會動用全部閱讀視角來處理它,沒有任何差別。
這就引出了一個自然的問題:一個逗號真的需要十六種不同的閱讀視角嗎?FrontiersMind的研究者認為答案是不需要的,而且他們設計了一套機制來證明這一點。
二、先了解一下現有的"節約方案"
在理解這項新研究之前,有必要先認識一個已經在工業界廣泛使用的優化方案——分組查詢注意力(GQA,Grouped-Query Attention)。
GQA的核心思路可以用圖書館的參考書來打比方。在傳統的多頭注意力機制(MHA)里,每個閱讀視角都擁有一套完全屬於自己的"參考書"(也就是鍵值緩存,Key-Value Cache)。這些參考書需要占用大量儲存空間,尤其是在模型處理很長的文本時。GQA的做法是讓幾個閱讀視角共用一套參考書,而不是每人一套。這樣參考書的數量大幅減少,儲存和讀取的成本隨之降低,但模型依然保留了多個不同的閱讀視角來產生查詢(Query)——也就是說,提問的視角多樣,但翻閱的參考書是共享的。
GQA在減少儲存壓力方面效果顯著,但有一個局限沒有被解決:它依然讓每個詞激活所有的查詢視角,就像那個認真的學生,哪怕是面對一個逗號,也要從十六個角度去審視它。FrontiersMind的研究者正是瞄準了這一點。
三、專家分工的靈感從哪裡來
解決"全員上陣"問題的靈感,來自AI領域另一個已經成熟的設計——混合專家機制(MoE,Mixture of Experts)。
混合專家機制在AI的"思維處理"模組(也就是MLP層)中已經大量應用。它的邏輯非常直觀:與其讓一個超級通才處理所有問題,不如培養一批專才,每次根據問題的性質,只調用最合適的幾位專家來作答。這樣模型雖然擁有大量潛在的處理能力,但每次實際運轉時只啟動一小部分,大幅節省了計算資源。
以往研究者把這種"按需分配專家"的思路用在MLP模組上,但很少有人嘗試把它搬到注意力機制里,尤其是搬到GQA的查詢頭上。FrontiersMind的研究者決定做這件事,並將其命名為"分組查詢專家"(GQE,Grouped Query Experts)。
核心理念是:在GQA的每一個共享參考書組內,設置多個查詢視角作為"候選專家",每次處理一個詞時,讓模型自動挑選其中最合適的少數幾個專家來工作,其餘專家保持沉默。參考書(鍵值緩存)的部分保持不變、始終全員工作——這樣GQA節省儲存的優勢得以完整保留,同時查詢側的計算量進一步壓縮。
四、GQE是怎麼運作的:從"派遣"到"匯報"
具體來看,GQE的工作流程可以分成幾個緊密相連的環節,每個環節都有其獨特的設計考量。
首先是分組結構。整個注意力模組被劃分為若干個組(等於共享參考書的數量),每個組內包含多個查詢專家。在研究者的主要實驗設置中,整個模型有16個查詢頭和8個共享參考書組,每組因此有2個候選專家。這些專家各自擁有獨立的查詢投影矩陣,能從不同角度"提問",但它們翻閱的是同一套參考書。
接下來是路由決策。當模型處理某個詞時,一個輕量級的"調度員"(路由器,Router)會快速評估當前詞的特徵,為每組內的各個專家評分,然後按照分數從高到低,只激活得分最高的k個專家。在研究者的主要實驗中,k等於1,也就是說每組只選一個最合適的專家。對於8個組而言,每次共有8個路由專家被激活,相當於路由專家池的一半。
然後是輸出整合。被選中的專家各自獨立完成注意力計算,產生各自的輸出結果。這些結果通過硬拼接的方式組合在一起,形成當前詞的主要注意力輸出。值得注意的是,研究者發現僅僅做硬拼接是不夠的——還需要一個特殊的"加權匯總槽",將所有被選專家的輸出按照路由器給出的評分加權平均,產生一個額外的綜合輸出。這個加權匯總的意義在後面會詳細說明。
最後是共享頭的穩定作用。除了被路由的專家,GQE還設置了一個始終全員激活的"共享注意力頭",無論路由器做出什麼決策,這個共享頭都會參與計算。三部分——硬拼接的專家輸出、加權匯總輸出、共享頭輸出——合併在一起,經過最終的輸出投影,產生當前層的注意力結果。
五、最棘手的問題:路由器如何學會"做決策"
研究過程中,研究者遭遇了一個非常實際的困難:路由器不知道怎麼學習。
這背後有一個技術原因。路由器做的是一個"離散選擇"——選或不選,沒有中間狀態。這種非此即彼的決策對於神經網路的訓練來說是一個麻煩,因為訓練神經網路的核心方法(梯度下降)依賴於連續可微的信號,就像沿著山坡滑下去需要知道坡度。一個硬性的"只選第一名,其餘全部忽略"的操作,讓梯度無法有效地流迴路由器,路由器因此學不會做出好決策。
這正是"加權匯總槽"存在的意義。雖然硬拼接部分不提供梯度信號,但加權匯總槽用被選專家的路由評分作為權重,產生一個可微的輸出,語言模型的訓練損失可以通過這個槽流迴路由器,告訴它"這次的選擇好不好,下次應該怎麼調整"。
研究者還引入了一個輔助的負載均衡損失,防止路由器形成"偏愛症"——即總是只挑某個固定的專家,導致其他專家從未得到訓練機會。這個輔助損失鼓勵不同的詞在訓練過程中分散地激活不同的專家,使整個專家池都能得到充分鍛煉。
六、實驗驗證:三個變種的對比故事
為了弄清楚GQE的哪些設計元素是真正起作用的,研究者做了一場嚴格的對比實驗。所有變種都在相同的條件下訓練:2.5億參數規模、300億訓練詞元、相同的數據集(來自FineWeb-Edu)、相同的優化器設置。評估指標包括三個常見的語言理解基準:HellaSwag(日常推理)、PIQA(物理常識)和ARC-Easy(基礎推理問答)。
基準對照組是一個標準的GQA模型,擁有16個查詢頭和8個共享參考書,所有查詢頭在每個詞上都全員激活。這個基準的三項測試平均得分為55.86分。
第一個對比變種叫"加權拼接但無重歸一化槽"。這個變種嘗試用路由器的評分直接對專家輸出做加權,但沒有單獨設置一個重歸一化的加權匯總槽。結果得分降到了55.18分,比基準低了約0.68分。這說明簡單地用評分加權並不能有效地給路由器提供學習信號。
第二個對比變種叫"純硬拼接"。這個變種只做選擇、只做拼接,完全不計算任何加權,路由器得到的梯度信號極其微弱。得分為55.43分,比加權拼接的變種略好,但仍比基準低了0.43分。
最後是完整的GQE設計,包含重歸一化加權匯總槽和常駐共享頭。這個配置的平均得分為56.04分,不僅追平了全員激活的GQA基準,還微幅超出了0.18分——而此時每個詞只激活了8個路由專家(路由池的一半),加上共享頭共9個查詢注意力計算單元,相比基準的16個節省了約44%的查詢側計算。
這個對比實驗清晰地說明了一件事:稀疏路由本身並不自動帶來好結果,關鍵在於路由器能否接收到有效的學習信號,以及模型是否有一個穩定的"底座"(共享頭)來防止學習過程因路由隨機性而崩塌。
七、速度提升:序列越長,節省越多
理論上的計算節省只有轉化為實際速度提升才有真正的意義。研究者測量了從2千詞元到超過100萬詞元的不同序列長度下,GQE相對於GQA基準的實際速度比。
在較短的序列(2千詞元)下,GQE的速度提升約為1.15倍。這個數字偏小,原因在於路由調度本身有固定的額外開銷,而當序列很短時,注意力計算本身工作量不多,路由開銷占比相對較大,稀疏計算的收益被部分抵消。
隨著序列長度增加,這種平衡迅速倒轉。從4千詞元開始,速度提升穩步攀升,在32千到100萬詞元的範圍內,速度提升穩定在1.67倍到1.80倍之間。這個趨勢與設計邏輯完全吻合:注意力計算中有一部分與序列長度成平方關係增長,而GQE跳過了一部分查詢專家,省掉的正是這部分隨長度急劇膨脹的計算量。序列越長,被節省的這塊"蛋糕"越大,相對於固定路由開銷的優勢也越明顯。
這對實際應用有直接的含義。現代大語言模型越來越多地被要求處理長文檔、長對話或大段代碼,上下文窗口動輒數萬乃至數十萬詞元。在這些場景下,GQE能夠以接近兩倍的速度完成同樣的任務,同時保持相近的輸出質量。
八、研究的邊界與尚待探索的方向
研究者對自己工作的局限性保持了坦誠的態度,這一點值得單獨關注。
全部實驗都在2.5億參數規模下進行,這在當今大模型的標準下屬於相對小型的模型。研究者明確指出,GQE相較於基準的那一點點微弱優勢(0.18分)不應被過度解讀為穩健的性能提升——它更應該被理解為"持平",因為沒有經過多次隨機種子的重複驗證。在更大規模(如數十億、數百億參數)的模型上,這種路由機制是否依然有效,仍需後續實驗驗證。
此外,每組內的候選專家數量(M)在主要實驗中只有2個,這意味著每組的"選擇空間"非常有限。更大的專家池(比如每組設置4個、8個候選專家)理論上能給模型提供更豐富的專注方向組合,讓不同類型的詞有更多差異化的處理方式,但這部分大規模搜索實驗留待未來工作展開。研究者還提到,未來將把GQE與其他長序列架構(如Mamba)進行橫向比較,進一步檢驗這種設計在不同體系下的適用性。
說到底,這項研究做了一件看起來簡單但實際上需要多個關鍵設計細節配合才能奏效的事:把"按需分配專家"這個在AI處理模組中已經被驗證的想法,移植到了注意力機制的查詢計算上,並找到了讓路由器真正學會決策的關鍵——一個提供可微梯度路徑的加權匯總槽,加上一個始終在線的穩定共享頭。缺了任何一個,稀疏路由不僅不能匹配基準,還會拖累性能。
歸根結底,這個研究告訴我們一件很有意思的事:AI系統在處理資訊時,並非每個詞都需要"全力以赴"地從所有視角審視。一個逗號和一個專業術語,對注意力資源的需求本來就不同。讓模型學會區分它們、因材施計,不僅能節省大量計算,還能保持甚至微幅改善整體表現。這種"懂得偷懶"的能力,反而可能是更聰明的設計。
對於普通用戶而言,這意味著未來的AI助手在處理長篇文章、超長對話或大量文檔時,可能在相同的硬體上運行得更快,或者在相同的速度下處理更長的內容,而不必犧牲回答的質量。有興趣追蹤這一方向後續進展的讀者,可以通過arXiv編號2606.20945找到原始論文,跟進研究團隊未來在更大模型規模上的驗證工作。
Q&A
Q1:GQE和GQA有什麼區別?
A:GQA(分組查詢注意力)通過讓多個查詢頭共用一套鍵值緩存來節省儲存空間,但仍然激活所有查詢頭。GQE在GQA基礎上進一步引入了路由機制,讓每個詞只激活組內得分最高的少數查詢專家,從而減少查詢側的實際計算量。兩者的鍵值緩存部分完全相同,區別在於查詢頭是否全員工作。
Q2:GQE為什麼需要加權匯總槽和共享頭,少一個行不行?
A:實驗表明兩者缺一不可。加權匯總槽為路由器提供可微的梯度信號,讓路由器能通過訓練學會做出好的專家選擇;共享頭則提供一個始終穩定的注意力通道,防止模型在路由器尚未學好時完全依賴不穩定的路由結果。單獨只有硬拼接的版本和只有加權但無重歸一化的版本,測試得分均明顯低於全員激活的GQA基準。
Q3:GQE在短文本上也有速度優勢嗎?
A:在短序列下速度提升較小範圍內穩定在1.67到1.80倍之間。GQE的速度優勢在長文本場景下最為顯著。






