Transformer架構作為當前大語言模型的主流架構,因為擁有特殊的注意力機制,存在輸出長度較短的缺點。為了解決這個問題,業界提出RWKV、Mamba等解決方案。
其中,Albert Gu提出的Mamba架構受到廣泛關注。Mamba是一個簡化的端到端神經網路架構,無需注意力機制。最近Albert Gu又提出了一個新的端到端網路H-Net,無需分詞器。
2025年7月10日,卡內基梅隆大學的Sukjun Hwang、Brandon Wang以及Albert Gu共同完成論文Dynamic Chunking for End-to-End Hierarchical Sequence Modeling,發表於arXiv。H-Net的模型代碼和預訓練檢查點開源在Github和Hugging Face上。
機器讀懂人類語言的翻譯難題
現在的人工智慧系統在處理文字時,就像一個需要翻譯字典的外國人一樣。它們無法直接理解原始的字母和文字,而是需要先把這些文字"翻譯"成特殊的代碼,這個過程就叫做"分詞"。
以GPT這樣的大語言模型為例,當你輸入"我愛學習"這四個字時,系統並不是直接處理這些漢字,而是先用一本特殊的"字典"把這些字轉換成數字代碼,比如把"我"轉換成編號1234,把"愛"轉換成編號5678等等,然後才開始思考。這就像你想和一個外國朋友交流,但你們都不會對方的語言,只能依靠一本翻譯詞典來對話。
這種傳統方法雖然被廣泛使用,但存在許多問題。最明顯的問題是翻譯錯誤。比如"蘋果公司"這個詞,如果翻譯字典把它拆分成"蘋果"和"公司"兩個部分,機器可能會誤以為你在談論水果生意。更嚴重的是,這種方法對不同語言極不公平。英語因為有天然的空格分隔,處理起來相對容易,但中文、日文這樣沒有空格的語言就吃了大虧。至於DNA序列或電腦代碼這樣的特殊語言,傳統的翻譯字典幾乎完全派不上用場。
研究團隊意識到,如果機器能夠像人類一樣直接理解原始文字,不需要任何翻譯字典,那麼這些問題都將迎刃而解。人類嬰兒學會說話時,並不需要先學會分詞,他們能夠自然地理解語言的節奏和規律。機器為什麼不能也這樣做呢?
智能文本處理工廠的誕生
為了解決這個根本問題,研究團隊設計了一個全新的系統,他們稱之為H-Net(分層網路)。這個系統就像一個極其智能的文本處理工廠,能夠直接處理最原始的字節數據,無需任何預處理的翻譯步驟。
H-Net的核心創新在於它的動態分塊機制。傳統方法就像用固定長度的尺子來切割文本,無論內容如何都機械地按照預設規則分割。而H-Net則像一個經驗豐富的師傅,能夠根據文本內容的實際情況,智能地決定在哪裡切一刀。它會仔細觀察每個字符之間的關係,當發現意義發生轉換的地方時,就在那裡設置一個分割點。
H-Net採用了一種類似人類閱讀習慣的方法。當你閱讀一段文字時,你的大腦會自動識別出詞與詞之間、句子與句子之間的界限。H-Net也是如此,它通過計算相鄰字符之間的相似度來判斷是否應該在此處分割。如果兩個相鄰字符在語義上差別很大,那麼它們之間很可能就是一個自然的分割點。
H-Net採用了層次化的處理結構。在第一層,它處理最基本的字符級別資訊。在更高層次上,它處理更抽象的語義資訊。這種層次化設計讓H-Net能夠同時處理細節和整體,既不會遺漏重要的細節資訊,也不會被瑣碎的資訊所干擾。
革命性的平滑處理技術
H-Net面臨的最大技術挑戰是如何讓機器在學習過程中不斷改進自己的分割技巧。傳統的機器學習就像教一個學生做數學題,每次做錯了都能明確指出哪裡錯了,應該如何改正。但是分割決策是一個"是或否"的選擇問題,就像開關一樣,要麼開要麼關,沒有中間狀態。這種離散性質讓機器很難通過常規方法學習改進。
研究團隊的解決方案相當巧妙,引入了"平滑模塊"技術。這個模塊就像一個智能的調節器,能夠將硬性的"開關"決策轉換為柔性的"調光器"。當H-Net對某個分割決策不太確定時,平滑模塊不會強硬地做出絕對選擇,而是根據置信度進行柔性處理。
具體來說,如果H-Net對某個位置應該分割的確信度是90%,那麼平滑模塊就會相應地調整處理強度。這種做法的妙處在於,它為機器學習提供了連續的改進空間。機器可以通過不斷調整這些確信度來逐步改善自己的分割技巧,就像一個學徒通過反覆練習來提高手藝一樣。
平滑模塊還具有自我糾錯的能力。當系統發現某個分割決策可能不夠理想時,它會自動融合周圍的資訊來進行補償。這種自適應機制確保了即使在學習初期出現一些錯誤,也不會對整體效果造成嚴重影響。
多級智能處理的威力
H-Net最令人印象深刻的特點是它的可擴展性。研究團隊發現,H-Net可以像搭積木一樣層層疊疊,構建出多級處理系統。一級H-Net能夠處理字符級別的分割,二級H-Net則可以在一級的基礎上進行更高級的語義分割,就像從字母組成單詞,再從單詞組成句子一樣。
在實際測試中,二級H-Net展現出了驚人的能力。它不僅能夠準確識別單詞邊界,還能理解更複雜的語義結構。比如在處理"這樣的例子"這個短語時,一級H-Net可能會在每個字之間都設置分割點,而二級H-Net則能夠智能地將"這樣的"識別為一個完整的修飾語單元,將"例子"識別為被修飾的名詞,從而實現更加合理的分割。
這種多級處理的優勢在處理複雜語言時尤為明顯。在中文處理中,二級H-Net能夠同時考慮字符級別和詞彙級別的資訊,準確率顯著提升。在處理編程代碼時,它能夠理解代碼的層次結構,將相關的代碼塊正確地歸組在一起。在DNA序列分析中,它能夠識別出具有生物學意義的功能片段,這是傳統方法難以做到的。
實戰測試中的卓越表現
研究團隊在多個實際場景中測試了H-Net的性能,結果令人矚目。在標準的英語文本處理任務中,僅使用一級動態分塊的字節級H-Net就能夠匹配強大的BPE分詞Transformer模型的性能,而這個Transformer模型的參數量超過10億個。當使用二級H-Net時,性能提升更加顯著,訓練僅進行300億字節後就超越了傳統的分詞模型,而且這個性能差距還在持續擴大。
在處理中文文本時,H-Net的優勢更加明顯。由於中文沒有天然的空格分隔,傳統的分詞方法經常出錯,而H-Net能夠通過學習漢字之間的語義關係來準確分割。在XWinograd中文語言理解測試中,H-Net的準確率從59.9%提升到了66.3%,這是一個相當顯著的改進。
編程代碼是另一個H-Net大放異彩的領域。代碼具有嚴格的語法結構和層次關係,傳統分詞方法很難準確理解這些結構。H-Net通過學習代碼的語法模式,能夠將功能相關的代碼片段合理地組織在一起,大大提高了代碼理解的準確性。
最令人驚訝的是H-Net在DNA序列分析中的表現。DNA序列被稱為生命的密碼,它沒有任何人工設計的分割規則,完全依靠生物學規律。H-Net竟然能夠從原始的DNA序列中學會識別具有生物學意義的功能單元,這展現了它強大的模式識別能力。在人類基因組數據集HG38上,H-Net的數據效率比傳統方法提高了3.6倍,這意味著它只需要不到三分之一的訓練數據就能達到相同的效果。
抗干擾能力的意外驚喜
在測試過程中,研究團隊還發現了H-Net的一個意外優勢:強大的抗干擾能力。他們故意在測試文本中加入各種擾動,比如刪除一些空格、改變字母大小寫、重複某些字符等,然後觀察不同系統的表現。
結果顯示,傳統的分詞系統在面對這些擾動時表現急劇下降,就像一個嚴重依賴GPS導航的司機在信號干擾時完全迷失方向。而H-Net由於直接處理原始字符,對這些擾動具有天然的抵抗力。即使文本被故意"破壞",H-Net仍然能夠通過上下文資訊和字符關係來正確理解文本內容。
這種抗干擾能力在實際應用中非常有價值。網路上的文本經常包含拼寫錯誤、格式問題或惡意擾動,傳統系統在處理這些"不完美"文本時往往力不從心。H-Net的魯棒性讓它能夠在更複雜的真實環境中穩定工作。
智能邊界識別的可視化發現
研究團隊通過可視化分析發現,H-Net確實學會了識別語言中的自然邊界。
第一層分割傾向於在空格和單詞開頭字符設置邊界,這類似於人類閱讀時的視覺掃描模式。第二層分割則更關注語義單元,會將"such as"(比如)、"the backbone"(主幹)這樣具有整體含義的短語作為完整單元處理。這種層次化的理解方式與人類的語言認知過程非常相似。
即使在故意刪除空格的擾動文本中,H-Net仍然能夠準確識別原本的單詞邊界。這表明它學到的不僅僅是表面的格式規則,而是深層的語義關係。這種能力讓H-Net能夠處理各種非標準格式的文本,大大擴展了應用範圍。
計算效率的巧妙平衡
H-Net的設計還體現了研究團隊在計算效率方面的深思熟慮。整個系統採用了類似U型網路的架構,將大部分計算資源集中在處理壓縮後序列的主網路上。編碼器和解碼器雖然處理原始長度的序列,但使用了參數較少的高效架構。
這種設計的巧妙之處在於它實現了計算負擔的最優分配。編碼器負責將長序列壓縮成短序列,解碼器負責將短序列恢復成長序列,而真正的智慧集中在處理短序列的主網路中。這就像一個高效的生產流水線,預處理和後處理使用簡單設備,而核心加工使用最精密的機器。
研究團隊還引入了學習率調製技術,為不同層次的網路設置不同的學習速度。由於外層網路處理更長的序列,它們需要更快的學習速度來及時調整分割策略。內層網路處理壓縮後的表示,可以使用較慢的學習速度來穩定優化。這種精細的調節確保了整個系統的協調發展。
至頂AI實驗室洞見
H-Net的出現預示了人工智慧發展的一個新趨勢:從依賴人工設計的預處理步驟轉向端到端的自動學習。這種轉變類似於從手工製作到工業自動化的變革,不僅提高了效率,還釋放了更大的潛力。
在特殊領域應用方面,H-Net為生物資訊學、代碼分析等領域開闢了新的可能性。這些領域的數據往往具有獨特的結構和規律,傳統的通用分詞方法難以勝任。H-Net的自適應學習能力讓它能夠自動發現這些領域特定的模式,為專業應用提供了更好的基礎。
從技術演進的角度看,H-Net體現了深度學習"端到端"優化的理念。這種方法讓整個系統作為一個整體進行優化,而不是將不同組件分別優化後再組合。
H-Net讓機器從"翻譯式理解"進化到了"直覺式理解",這種變化可能會帶來更自然、更智能的人機交互體驗。未來的AI系統可能會更好地理解人類語言的細膩之處,包括語調、語境和潛在含義,讓AI助手變得更加貼心和實用。
論文地址:https://www.arxiv.org/abs/2507.07955
Q&A
Q1:卡內基梅隆大學的動態分塊技術是什麼?
A:動態分塊技術由卡內基梅隆大學和CartesiaAI開發,允許AI語言模型自動學習文本分割,無需固定規則。它使用路由模塊分析內容相似性來決定分割點,以及平滑模塊確保訓練穩定。該技術提高靈活性,適用於中文、代碼等數據類型。
Q2:H-Net架構如何改善AI語言模型?
A:H-Net架構採用分層設計:編碼器處理原始字節數據,主網路處理壓縮資訊塊,解碼器還原輸出。多級分層(如一級或二級)提升數據效率,二級H-Net只需300億字節訓練數據就能超越傳統模型,並改善多語言及長文本處理。
Q3:動態分塊在中文AI處理上有什麼優勢?
A:動態分塊解決中文無空格分隔問題,避免錯誤分割(如將「蘋果公司」誤切)。它提高中文理解任務得分,從59.9到66.3,並增強抗干擾能力,面對拼寫錯誤時性能更穩健。