這項由英國劍橋MediaTek Research團隊完成的研究,以預印本形式發布於2026年4月,論文編號為arXiv:2604.07466v2,感興趣的讀者可通過該編號查閱完整原文。
你有沒有試過讓兩個說著不同方言的人互相傳話?假設一個人只說粵語,另一個人只說閩南語,中間那位傳話的人如果不懂這兩種方言,消息就會失真甚至根本傳不過去。這個困境,在當今人工智慧領域同樣真實存在——而且規模更大、影響更深。
這項研究解決的,正是當今最強大的AI語言模型之間一道幾乎無人能打通的隔閡。
一、為什麼AI之間會互相"聽不懂"
要理解這個問題,需要先了解現代語言AI是怎麼"讀"文字的。普通人閱讀文章時,是一個字一個字地看。但AI語言模型讀文字的方式更接近速讀高手:它們不是逐字閱讀,而是將文字切成一塊一塊的"詞片"來處理,這個切割工具就叫做"分詞器"(tokenizer)。
以英文為例,單詞"playing"可能被切成"play"和"ing"兩片,"unfortunately"可能被切成"un"、"fort"、"unate"、"ly"四片。不同的AI廠商根據自己訓練數據的特點,設計了各自不同的分詞方案,於是誕生了各自獨特的"詞彙表"。Meta公司開發的Llama模型的詞彙表大約有12.8萬個詞片,而Qwen模型的詞彙表約有15萬個,谷歌的Gemma系列則又是另一套體系。
這帶來了一個實際問題。在AI領域,有一種極為有效的技術叫做"知識蒸餾"(knowledge distillation)——簡單說,就是用一個龐大、強悍的"老師"AI,去訓練一個輕量、快速的"學生"AI,讓學生繼承老師的能力。這種技術對於把巨型AI"瘦身"成能在手機上運行的小模型至關重要。但現有的蒸餾技術有一個根本前提:老師和學生必須使用同一套分詞方案,擁有完全相同的詞彙表。
換句話說,如果老師AI和學生AI說的是不同的"方言",傳統方法就完全失效了。研究者們把這個難題稱為"跨分詞器蒸餾"(Cross-Tokenizer Distillation,簡稱CTD),而在這篇論文發表之前,這個問題在學術界基本被視為懸而未決的難題。
二、前人都想了哪些辦法,為何都不太理想
在這支MediaTek Research團隊提出新方案之前,學術界已經有一些研究者嘗試繞過這道障礙,但每種方法都有其明顯的局限。
一種思路是"強行對齊詞彙表"——就像手動製作一本粵語-閩南語對照字典,試圖找出兩套詞彙表之間的對應關係。法國研究者Boizard等人提出了一種基於"最優傳輸理論"的方法,通過數學手段讓兩套不同的輸出空間儘量對齊。Wan等人則嘗試把多個AI的知識融合在一起。Zhang等人提出了"雙空間蒸餾",同時在詞彙層面和隱藏表示層面做對齊。還有Minixhofer等人提出通過"近似似然匹配"來做通用跨分詞器蒸餾。
這些方法無一例外,都需要設計精巧的啟發式策略、引入額外的複雜機制,並且在理論上存在資訊損失——就像那本對照字典永遠不可能做到完全精確,兩種方言之間總有無法一一對應的表達。
另一種更原始的思路是"樣本蒸餾"——讓老師AI先生成一批文本,再讓學生在這批文本上進行普通訓練。這相當於不直接傳授思維方式,而是讓學生模仿老師寫出來的作業。這種方法計算效率低下,而且損失了老師在每個詞上的細膩概率判斷。
這兩類方法的共同弱點在於:它們都在試圖強行架設一座連接兩種不同語言體系的橋樑,而這座橋本身就是不穩定的。
三、字節:所有AI都能"聽懂"的底層語言
MediaTek Research團隊的突破口,來自一個看似簡單卻頗為精妙的發現:所有的分詞方案,不管是Llama的、Qwen的還是Gemma的,最終都建立在同一套基礎之上——字節(byte)。
字節是電腦處理文字的最基本單位。任何一段文字,無論是中文、英文還是阿拉伯文,在電腦里最終都會被表示為一串字節序列。所有的分詞器,本質上都是先把文字轉換成字節,再在字節的基礎上進行切割和歸組。換句話說,字節是所有AI語言體系共同的"地基"。
這個發現促成了本文提出的方法:與其費盡心機建造一座連接兩套詞彙體系的橋樑,不如直接找到它們共同站立的那塊地基。研究團隊把這個方法命名為"字節級蒸餾"(Byte-Level Distillation,簡稱BLD)。
四、字節級蒸餾是如何工作的
核心思路可以用一個直觀的場景來理解。假設你要把一位法語廚師的精湛廚藝傳授給一位中文廚師。傳統方法是:先把法語食譜翻譯成中文,但翻譯過程中難免有偏差,有些法語烹飪概念根本沒有對應的中文詞彙。而字節級蒸餾的思路是:繞過語言障礙,直接讓兩位廚師都去觀察食材本身——食材是無國界的,一塊牛肉對法國人和中國人來說沒有區別。
在AI的世界裡,"字節"就是那個無國界的食材。
具體操作分為兩個清晰的步驟。
第一步是為學生AI安裝一個"字節級感知器"。研究團隊在預訓練好的學生模型上,在其原有的詞彙輸出層旁邊,並聯安裝一個輕量級的字節級解碼頭(byte-level decoder head)。這個額外的模組由10個並行的線性投影層構成,每一層負責預測當前詞片位置對應的一個字節是什麼。這個解碼頭的參數量相比整個模型來說非常小,但它給學生AI開了一扇全新的窗口——能夠用字節這種通用語言來感知和表達資訊。字節級詞彙表只包含256個可能的字節值加上4個特殊符號(序列開始、序列結束、填充、未知字符),共260個元素,比任何分詞詞彙表都要簡潔得多。
第二步是通過字節這個共同通道完成知識傳遞。對於老師AI,研究團隊藉助Vieira等研究者開發的一套算法,將老師在詞彙層面的輸出概率轉換成字節層面的概率——也就是說,在給定一段已有文字的情況下,老師認為下一個字節是'a'的概率是多少,是'b'的概率是多少,依此類推。這個轉換過程不是憑空猜測,而是有嚴格數學依據的:通過對所有可能的詞片分割方案進行加權求和,精確推導出字節層面的概率分布。
有了老師在字節層面的"判斷",以及學生通過新安裝的字節級解碼頭做出的"判斷",兩者之間就可以進行直接比較,用"KL散度"這個數學工具來衡量差距,並通過訓練讓學生的判斷儘量靠近老師的判斷。與此同時,訓練過程還保留了兩個輔助目標:讓學生在原有的詞彙層面繼續預測下一個詞片(確保詞彙層的解碼頭也能得到更新),以及在字節層面預測下一個字節的正確答案(確保字節感知能力的穩健性)。三個訓練目標協同作用,構成了完整的蒸餾損失函數。
訓練完成後,那個臨時安裝的字節級解碼頭會被摘除,留下的是一個煥然一新、使用新分詞方案的學生AI——它的內部知識已經從老師那裡汲取完畢,外表卻是一個標準的、乾淨的語言模型。
五、一個棘手的技術細節:如何把詞彙概率變成字節概率
把老師的輸出從詞彙層面轉換到字節層面,聽起來簡單,實際上涉及相當精妙的數學處理,理解這一點有助於我們更好地認識這個方法的價值。
問題的難點在於,一個詞片(token)通常包含多個字節。比如英文詞片"playing"包含7個字節。老師AI在某個時刻輸出的,是對下一個完整詞片的概率分布——"playing"有30%的概率,"played"有25%的概率,等等。但我們需要的是對下一個字節的概率分布:下一個字節是'p'的概率是多少?
這個轉換的理論依據來自"字節-詞片表示引理"(Byte-Token Representation Lemma),由Phan等研究者系統闡述,而Vieira等研究者提供了高效的近似計算算法。核心思想是:對於任何一段已有的字節序列,下一個字節的概率等於所有"覆蓋"該字節序列的詞片序列的概率之和。具體計算時,算法通過"集束搜索"(beam search)的方式,在所有可能的詞片分割路徑中找出概率最高的若干條,以此近似全局答案。
研究團隊對這套近似算法進行了仔細的參數調優。他們測試了不同的集束寬度K(保留多少條候選路徑)和剪枝閾值ε(概率低於多少的路徑可以丟棄)。評估標準是近似結果與高精度參考結果之間的"詹森-香農散度"(JSD),這個指標可以理解為兩個概率分布之間的"相似程度"——數值越接近0,說明近似越精確。
經過測試,研究團隊發現K=10、ε=0.01這個組合是最佳平衡點:近似誤差只有0.0045,遠低於會影響下游任務表現的閾值0.005;同時,內存使用量只有高精度參考配置的十分之一,使得更高的並行度成為可能。實際運行時,在四塊NVIDIA RTX 3090顯卡上,處理100到150字節長度的序列平均只需約10.4秒。用這套配置處理完整個Tulu-3訓練數據集的字節概率,大約需要兩天時間——這是一次性的離線預計算,不影響實際訓練速度。
六、實驗怎麼設計的,和誰比較
為了驗證字節級蒸餾的實際效果,研究團隊嚴格遵循了Minixhofer等人在同類研究中建立的實驗框架,設計了三類任務,覆蓋了實際應用中最常見的場景。
第一類是"BPE到BPE的分詞器遷移"——把一個已經訓練好的模型從一套詞片分詞方案遷移到另一套。具體操作是:取Meta的Llama 3.2 3B(30億參數)指令跟隨模型,把它的分詞器換成阿里巴巴Qwen 2模型所使用的分詞器,然後用不同的蒸餾方法讓這個"換了語言體系"的模型重新學會運轉。對比的基準方法包括:僅做監督微調(SFT)、DSKD雙空間知識蒸餾、MinED最小編輯距離對齊法,以及ALM+SFT近似似然匹配方法。
第二類是"BPE到字節級的分詞器遷移"——這是更極端的場景,相當於把一個習慣以詞片為單位思考的模型,改造成一個逐字節處理文字的模型。同樣使用Llama 3.2 3B作為起點,將其改造為字節級語言模型。
第三類是"真正的跨模型、跨分詞器蒸餾"——這是最貼近實際應用需求的場景。具體任務是:把專門針對數學問題優化的OpenMath2-Llama 3.1 8B(80億參數)老師模型的數學能力,蒸餾到谷歌的Gemma 2 2B(20億參數)學生模型中去。老師和學生不僅分詞方案不同,架構和訓練背景也完全不同。訓練數據使用OpenMathInstruct-2數學指令數據集,評估在GSM8K(小學數學應用題)和MATH(競賽級數學題)兩個標準基準上進行。
訓練策略上,研究團隊對所有方法統一使用LoRA低秩適應技術(rank=64),只更新查詢和數值投影矩陣,其餘骨幹權重保持凍結。學習率設為2×10??,採用餘弦衰減加線性熱身的調度策略,訓練5個輪次,最大序列長度512詞片,使用bf16混合精度。這樣的統一設置確保了不同方法之間的公平比較。
七、實驗結果說明了什麼
在分詞器遷移(從Llama詞彙表切換到Qwen詞彙表)的結果上,字節級蒸餾展現出具體的競爭力。在PiQA(物理常識推理)上,BLD取得了75.68分的最高成績,與原始Llama 3.2 3B的75.46分幾乎持平,說明通過字節通道傳遞知識後,模型在常識推理上恢復得相當充分。在中文AGIEval(AGI-ZH)上,BLD同樣拿到了最高的35.97分。在MMLU(大規模多任務語言理解)和BoolQ(是否判斷)上,BLD的表現也接近原始模型水準。
然而,BLD並非在所有方面都最優。ALM+SFT在ARC-Challenge(科學推理)、BoolQ、MMLU、英文AGIEval四個榜單上領先。最值得注意的短板出現在IFEval(指令跟隨能力評估)上:BLD只得到30.58分,而MinED達到62.83分,ALM+SFT達到58.51分,原始模型的基準是66.31分。這說明字節級蒸餾目前在保留模型"按特定格式和規範輸出"的能力上存在明顯不足。
在更難的場景——把模型遷移到字節級分詞器上——所有方法都遭受了大幅性能下滑:MMLU從60.50驟降至約39分區間,ARC-Challenge從45.73降至約31-33分區間,這反映出將一個以詞片為思維單位的模型改造成逐字節運作的模型,是一項根本性的挑戰。在這個艱難場景下,BLD在PiQA上以67.52分略領先於MinED的67.41分,但差距微乎其微。各方法的表現差距遠比第一類任務小,說明在極端困難的情形下,所有方法都觸到了相似的能力天花板,沒有哪種方法能真正破局。DSKD在兩類遷移任務中都墊底,證實了不做任何詞彙對齊而直接進行分布匹配的方式在這類問題上行不通。
在跨模型、跨分詞器的數學蒸餾任務中,BLD在GSM8K上以62.55分(±1.33)取得了所測方法中的最高分,超過了ALM+SFT的61.56分和純SFT的59.29分,也大幅高於Gemma 2 2B原始基準的51.48分。不過,在更難的MATH競賽題上,SFT反而以22.40分領先,BLD為20.08分,說明BLD的優勢並不均勻地覆蓋所有數學任務類型。儘管如此,即便是最好成績(62.55分)與老師模型(87.26分)之間,依然存在超過24分的巨大鴻溝,這清晰地提示了跨模型知識遷移仍是一項遠未解決的難題。
八、一個有趣的"意外發現"
研究團隊在驗證字節級解碼頭的有效性時,用Llama 3.2 1B模型做了一個純字節級監督微調實驗——也就是說,只用字節層面的預測誤差來更新模型,根本不給詞彙層面任何直接監督信號。
出乎預料的是,詞彙層面的訓練損失和驗證損失也隨之下降了,而且下降趨勢相當平滑穩定。字節層面的訓練損失從約0.8降到約0.1,驗證損失從約0.44逐步降至約0.34;詞彙層面的訓練損失從約3.5降到約1.5,驗證損失從約2.8降到約2.0。
這個發現頗具啟示意義:在字節粒度上學習語言,能夠有效地帶動詞片粒度上的語言理解能力提升。字節層面的信號並不是一種粗糙的替代品,而是攜帶著豐富的、能夠滲透到更高層次的語言知識。這也從另一個角度印證了"字節是語言的通用地基"這一核心直覺。
九、誠實面對局限性
研究團隊並沒有迴避這項工作的局限性。計算資源的約束使得實驗規模被限定在3B(分詞器遷移任務)和8B到2B(跨模型蒸餾任務)的範圍內,更大規模模型上的行為尚未探索。參數高效的LoRA微調雖然降低了計算需求,但也可能限制了性能上限——全參數優化或許能取得更好的成績。
字節級解碼頭的設計也還有進步空間。目前使用的是10個並行的簡單線性層,每個位置最多預測10個字節的資訊,對於詞片長度超過10字節的情況(雖然較少見),監督信號會被截斷。更先進的做法可以是使用一個小型自回歸Transformer作為字節級解碼頭,讓它能夠按順序生成任意長度的字節序列,從而捕捉字節之間的序列依賴關係——這一改進方向在論文中被明確列為未來工作。
此外,研究團隊對結果的評價保持了相當的克制:他們明確指出,在所有測試的任務和基準上,沒有任何一種方法(包括他們自己的)能夠持續穩定地優於其他方法。不同的基準、不同的遷移目標、不同的模型對,會導致截然不同的方法排名。由此可見,跨分詞器蒸餾在當前階段仍然是一個開放性問題,距離完滿解決還有相當距離。
歸根結底,這項研究做到的事情是:用一個出人意料地簡單、理論上有據可查的方案,證明了字節層面是跨AI知識傳遞的一個可行共同界面。它沒有解決所有問題,但它開闢了一條此前幾乎無人明確探索過的路徑,並且用充分的實驗證據表明,這條路值得繼續走下去。
對於那些正在思考如何高效組合不同AI系統、或者希望把某個專業領域的大模型知識"壓縮"進小模型的研究者和工程師來說,這個方向有著非常實際的意義。當各家AI廠商都在構建自己的分詞體系,當開源生態中並存著數十種互不兼容的模型家族時,找到一個通用的知識傳遞渠道,其重要性不言而喻。字節,這個電腦世界裡最基礎的存在,或許正是打通這些孤島的那把鑰匙。有興趣深入研究這一問題的讀者,可通過論文編號arXiv:2604.07466查閱完整原文及所有技術細節。
Q&A
Q1:字節級蒸餾(BLD)和傳統知識蒸餾有什麼根本區別?
A:傳統知識蒸餾要求老師AI和學生AI使用完全相同的詞彙表,因為蒸餾是在詞彙層面直接比較輸出概率。BLD的不同之處在於,它把老師的輸出概率從詞彙層面轉換到字節層面,同時給學生模型臨時安裝一個字節級解碼頭,讓兩者都在"字節"這個所有AI共有的底層語言上交流知識,從而繞過詞彙不匹配的問題。蒸餾完成後,字節級解碼頭會被移除,學生恢復為標準的詞彙級模型。
Q2:字節級蒸餾在哪些任務上效果不好?
A:根據實驗結果,字節級蒸餾在"指令跟隨"能力上存在明顯短板。在IFEval基準測試中,BLD只得到30.58分,遠低於MinED的62.83分和ALM+SFT的58.51分。此外,在MATH競賽級數學題上,BLD的20.08分也低於純監督微調方法的22.40分。這說明當任務要求模型嚴格遵循特定格式規範或應對複雜推理時,字節級蒸餾的優勢會減弱甚至消失。
Q3:跨分詞器蒸餾在實際中有什麼用?
A:實際應用場景主要有兩類。一是把某個專業領域的大模型(比如專門訓練了數學能力的大模型)的知識遷移到一個使用不同詞彙體系、參數量更小的模型中,得到高效的專業小模型。二是在多個不同廠商的頂級開源模型之間進行集成蒸餾,讓一個小模型同時學習來自DeepSeek
、Qwen、GPT等多個模型的綜合知識,理論上可以超越任何單一教師模型的能力。






