這項由Sapient Intelligence與麻省理工學院(MIT)合作完成的研究,於2026年5月20日以arXiv預印本形式發布,論文編號為arXiv:2605.20613v1,有興趣深入了解的讀者可通過該編號查詢完整論文。
當今的人工智慧軍備競賽里,誰燒的錢多、誰的電費賬單更嚇人,似乎就代表誰更厲害。訓練一個像樣的大語言模型,動輒需要幾千張頂級顯卡跑上幾個月,耗費數億乃至數十億美元。這道幾乎無法逾越的門檻,讓絕大多數大學實驗室、小型研究團隊甚至個人研究者只能望洋興嘆——他們根本沒有資格參與這場遊戲,更別說提出新想法、驗證新架構了。
然而,Sapient Intelligence與MIT的這支研究團隊偏偏不信這個邪。他們提出了一個聽起來近乎異端的問題:如果我們換一種更聰明的方式訓練AI,是否可以用極少的資源達到同樣的效果?答案令人吃驚——他們用16塊顯卡、僅僅1.9天的時間、花費約1500美元,從零開始訓練出了一個名為HRM-Text的10億參數模型。這個模型在多項權威測試中的表現,與那些動用了數百倍算力、處理了數百倍訓練數據的20億至70億參數主流模型相抗衡,甚至在某些推理類測試中超越了它們。
這不是變魔術,背後有兩項真正的技術突破:一是受人類大腦啟發的全新神經網路結構,二是徹底顛覆傳統的訓練方式。這篇文章將帶你一步步揭開HRM-Text的秘密。
一、為什麼大腦學東西比AI更省力?從人類神經科學找答案
要理解HRM-Text為什麼與眾不同,先得明白當前主流AI模型是怎麼學習的,以及為什麼這種方式如此"浪費"。
現在幾乎所有的大語言模型,包括大家熟悉的GPT、Llama、Qwen等,在訓練時都遵循同一套劇本:先把網際網路上能搜集到的所有文字——新聞、小說、論壇帖子、百科詞條、代碼、食譜——統統塞給模型,讓它一個字一個字地猜下一個字是什麼。這個過程叫做"無監督預訓練",它的邏輯是:只要見過足夠多的文字,模型自然就能學會語言的規律,學會世界的知識。
這個思路不是沒有道理,但代價驚人。模型需要反覆揣摩大量與最終任務毫無關係的內容,比如預測一段網路小說的下一句,或者記住某位名人的生日——這些對於一個最終被用來回答問題、寫代碼的模型來說,其實是"無效練習"。就像要培養一個出色的廚師,卻讓他先把世界上所有的食譜都背下來,包括那些他永遠不會用到的菜系,而且還要能一字不差地默寫出來。
人類的大腦從來不是這樣學習的。神經科學的研究表明,人腦在處理資訊時有一套精妙的"雙軌機制",被稱為額頂葉迴路(frontoparietal loop)。簡單來說,大腦里有兩類節奏截然不同的處理過程同時運行:一類運行得慢,負責把握大局、維持戰略性的上下文理解,就像一位在棋局中深思遠慮的棋手;另一類運行得快,負責快速執行具體的細節操作,就像棋手熟練地落子。正是這種"慢思考+快執行"的雙層結構,讓人腦能夠在極少樣本的情況下快速掌握新知識。
Sapient Intelligence的研究人員此前就基於這個靈感,開發了一種叫做"層級遞歸模型"(Hierarchical Recurrent Model,簡稱HRM)的神經網路架構,並在組合邏輯推理等符號任務上取得了很好的效果。但將這套架構用於語言模型,面臨的挑戰要大得多——語言的世界比棋盤或數學題複雜出幾個數量級,隨之而來的是嚴峻的訓練不穩定性問題。如何馴服這匹"野馬",是他們需要攻克的第一道難關。
二、"慢大腦+快大腦"的機器實現:HRM架構是怎麼工作的
理解HRM的結構,可以用一個小小的類比:假設你在解一道複雜的數學題,你的思維過程大致分兩層。外層是你的"總指揮",它負責把握解題的整體思路,比如"這道題應該用代入法",它不會頻繁變化,而是在幾個關鍵節點才更新一次判斷。內層是你的"執行手",它根據總指揮的方向,一步一步地進行具體的運算,動作頻繁而細緻。
HRM的結構正是如此。它包含兩種模組:H模組(慢模組)和L模組(快模組)。在每一次完整的處理過程中,模型會先通過輸入的詞語初始化一個"全局狀態",然後進入兩輪大循環。每輪大循環里,L模組會快速執行三次細節處理,之後H模組才進行一次全局狀態的更新。最終,模型根據H模組輸出的結果來預測下一個詞。這個結構意味著:同樣數量的參數,在HRM里會被反覆使用多次,而不是像普通的Transformer網路那樣,每一層參數只被用一次就"過去了"。
與傳統的Transformer相比,HRM相當於用同等數量的"零件",搭建出了一座更高的"樓"——參數不增加,但有效的計算深度大大增加。研究團隊將這種能力稱為"有效深度",並通過多種實驗手段加以驗證。其中有一個叫做"logit lens"的分析方法,可以把模型每一層的中間狀態"翻譯"成它在那一刻的預測結果,然後看這個預測與最終答案有多大差距。對於普通的Transformer和循環Transformer來說,這個差距在較淺的層就會迅速收斂到很小——意味著深層的計算其實沒發揮太大作用。而HRM的深層依然保持著較大的差距,說明它的每一層都在踏踏實實地做出貢獻,沒有"摸魚"。
在另一項分析中,研究人員還觀察了相鄰兩層之間隱藏狀態的變化幅度。HRM每層之間的變化幅度均值為34.12,而循環Transformer是29.65,RINS是25.42——HRM的"每一步都走得更紮實",層與層之間的表示不會趨於雷同,避免了所謂的"表示過平滑"問題,即模型深層的向量越來越像、失去辨別力的通病。
三、如何訓練一匹"不受控制的野馬":MagicNorm與漸進式梯度策略
架構設計完畢,下一個問題接踵而至:循環網路歷來以難以訓練著稱。每次反覆"摺疊"同一套參數,就像把一張紙來回摺疊一百次——梯度在反向傳播時,會經歷類似的"乘法鏈式效應",要麼越乘越小趨近於零(梯度消失),要麼越乘越大爆炸式增長(梯度爆炸),兩者都會讓訓練徹底失控。
為了解決這個問題,研究團隊發明了一種叫做"MagicNorm"的歸一化技術。要理解它的妙處,先得知道神經網路中兩種常見的歸一化方式各有什麼缺陷。
一種叫做"後歸一化"(PostNorm),它的做法是在每一層的輸出處做歸一化。這個方式的優點是讓每一步的激活值都被約束在一個合理範圍內,前向傳播很穩定;缺點是它打斷了"直通路徑",梯度在反向傳播時必須穿越歸一化層才能到達更早的層,在網路很深的時候容易造成梯度消失。另一種叫做"前歸一化"(PreNorm),它的做法是在每一層的輸入處做歸一化。優點是保留了一條"高速公路"——誤差信號可以直接跳回到早期層,梯度流動更順暢;缺點是殘差連接上的激活值沒有被歸一化,隨著層數加深會越來越大,可能導致表示退化。
MagicNorm巧妙地把兩者結合起來,並利用了遞歸訓練中一個獨特的不對稱性:前向傳播和反向傳播經歷的"深度"不同。在前向傳播時,隱藏狀態要經歷所有N次遞歸步驟,每一步末尾都有一個歸一化操作,這讓激活值始終被約束在合理範圍內,擁有PostNorm的前向穩定性。但在反向傳播時,研究團隊採用了"截斷反向傳播"策略,誤差只會被傳播回最近的K步(K遠小於N),在這有限的幾步里,梯度走的是內部PreNorm的"高速公路",享受PreNorm的梯度流動優勢。換句話說,MagicNorm在前向看起來像PostNorm,在反向看起來像PreNorm,兼得兩者之長,避開兩者之短。
除了MagicNorm,訓練策略上還有第二項創新:漸進式梯度策略(warmup deep credit assignment)。在訓練剛開始時,模型還處於"懵懵懂懂"的狀態,這時候如果讓誤差信號傳播太遠,就好比讓一個剛學會走路的孩子立刻去跑馬拉松——不僅跑不好,還容易摔跤。因此,研究團隊在訓練初期只讓誤差傳播回最近的兩個遞歸步驟(K=2),等模型訓練得更穩定後,再逐漸擴展到最近的五個步驟(K=5)。這種"先走短程、再走長程"的漸進方式,既讓模型在早期快速穩定下來,又讓它最終能夠學到更長程的依賴關係。
研究團隊還專門做了一系列實驗來驗證這套訓練策略的必要性。他們對比了在不同反向傳播深度下,模型的梯度變化情況。結果顯示,當使用完整的反向傳播時(Full BPTT),梯度幅度會出現罕見但極其劇烈的"尖峰"——在漫長平靜的訓練過程中,突然出現一次高達35倍於正常值的梯度爆炸,這會嚴重破壞模型參數。而截斷反向傳播則大大減少了這類危險事件的發生。此外,他們還發現,不穩定性主要來自H模組的遞歸深度,而非L模組,因此H模組的梯度截斷是重中之重。
四、徹底顛覆訓練方式:只學"有用的",丟掉"無用的"
解決了架構和訓練穩定性問題之後,研究團隊還在訓練數據和訓練目標上做了一次根本性的顛覆。
傳統的大語言模型訓練分兩個階段。第一階段是"預訓練",餵給模型海量的原始網際網路文本,訓練目標是預測每一個詞——無論這個詞是問題還是回答、是有意義的內容還是格式噪聲,模型都得學。第二階段是"微調",再用高質量的問答數據對模型進行精調。整個流程耗時耗力,而且大量的計算資源都花在了學習"沒用的"部分上——比如學會預測一道題的題干,但題干在推理時是已知的,根本不需要模型去生成。
HRM-Text完全跳過了第一階段,直接從零開始、在結構化的問答數據上訓練。更關鍵的是,訓練目標只計算模型對"回答"部分的預測損失,對"問題"部分不計算損失。這就好比培訓一個客服代表,只考核他的回答質量,而不要求他去背誦顧客可能提出的每一種問題的原文——後者本來就是已知的輸入,根本無需死記硬背。
這種訓練方式在技術上叫做"任務完成目標",配合使用了一種叫做"PrefixLM注意力掩碼"的技術。普通的因果語言模型在處理一段文字時,每個詞只能"看到"它前面的詞,保持單向的因果關係。而PrefixLM打破了這個限制:在問題(指令)部分,所有詞都可以互相看到,形成雙向的完整理解;在回答(生成)部分,則恢復單向的因果生成,確保模型一個詞一個詞地給出答案。這給了模型一個巨大優勢:它能在回答之前,對整個問題形成充分而全面的理解,而不是只看到問題的"前半段"就開始回答。
實驗數據清楚地說明了這兩項改動的效果。在計算量相同的條件下,單純用完整文本訓練的標準因果模型,在測試中的回答質量最差。加入"只計算回答部分損失"之後,模型的回答準確率有了明顯提升。在此基礎上再加入PrefixLM,準確率進一步上升。研究團隊還測量了不同層的注意力熵(一種衡量注意力"視野寬廣程度"的指標),發現PrefixLM確實讓模型在回答時能夠注意到更多樣化的輸入詞彙,而非只盯著最近幾個詞——這與"能看全整道題"的直覺一致。
五、40億個詞的訓練數據:精挑細選,而非來者不拒
完成了架構和訓練方式的設計之後,還有一道關鍵工序:數據準備。HRM-Text使用的訓練數據總量只有400億個詞元(token),這在當今動輒數萬億詞元的大模型訓練標準中,簡直少得可憐。但"少"不代表"差",研究團隊在數據的質量和多樣性上下足了功夫。
整個訓練數據集由七個大類組成,來源全部是公開的開源數據集。其中最大的一類是通用指令數據,包括FLAN、Tasksource等大型指令集,以及NoRobots等高質量人工編寫數據,合計約1387億詞元的原始語料,但通過採樣壓縮到了一個合理的比例。第二類是"改寫的維基百科知識",研究團隊使用了一個叫做SYNTH的數據集,它將維基百科的知識改寫成了問答對的形式,更符合HRM-Text的訓練目標。數學與推理類數據是第三類,包含Platypus、NuminaMath等多個數學問題數據集。符號推理類數據是第四類,包括經典的DM Math數學符號推理題和極難的數獨題。第五類是"去除思維鏈的推理數據"——研究團隊特別從AceReason、OpenThoughts2等數據集中刪除了那些長篇的"思考過程"文字(被`
在採樣策略上,研究團隊採用了分層採樣的方式,把每個數據集或任務類型作為獨立的"層"來處理,避免大型數據集的海量數據把小型但高質量的數據集完全淹沒。對於那些特別龐大的數據集(如FLAN),設置了每個任務最多採樣5000個文檔的上限;對於特別小的數據集(不超過5萬個文檔),則允許最多重複使用10次,以確保它們能夠充分參與訓練。
另外,研究團隊還採用了條件標籤的方式來控制模型的回答風格。在每個訓練樣本的指令前面,會加上四種不同的條件標籤之一:`direct`(直接給出答案,不展開)、`cot`(採用思維鏈格式逐步推理)、`synth`(模仿合成數據的回答風格)和`noisy`(保留網路爬取文本的不規則格式)。通過這種方式,用戶在推理時只需在問題前加上對應的標籤,就能控制模型給出哪種風格的回答。
六、用一塊錢的成本,打敗花了四百塊的對手:實驗結果全景
接下來是所有人最關心的部分:HRM-Text到底有多好?
研究團隊在八項權威基準測試上評估了HRM-Text 1B(10億參數)模型,並與Llama 3.2 3B(Meta出品,30億參數)、Gemma 3 4B(Google出品,40億參數)、Qwen 3.5 2B(阿里出品,20億參數)、OLMo 3 7B(70億參數)等主流開源模型進行了對比。
在通用知識測試MMLU上,HRM-Text 1B得分60.7%,而Qwen 3.5 2B達到64.5%、OLMo 3 7B達到65.8%,稍有差距。這個結果符合預期——MMLU主要考察廣博的事實知識記憶,而HRM-Text的訓練數據量只有這些模型的百分之一甚至更少,知識覆蓋面天然受限。
然而,在更側重推理能力的測試中,HRM-Text的表現令人刮目相看。在ARC-C(常識推理)測試中,HRM-Text以81.9%的成績與OLMo 3 7B的81.6%幾乎持平,超過了Llama 3.2 3B的69.1%和Gemma 3 4B的56.2%。在DROP(閱讀理解與算術推理)測試中,HRM-Text以82.2%的成績勝過了所有比較對象,Gemma 3 4B是60.1%,OLMo 3 7B是71.5%。在GSM8K(小學數學應用題)測試中,HRM-Text以84.5%的成績超越了Llama 3.2 3B(77.7%)、Qwen 3.5 2B(53.0%)和Gemma 3 4B(38.4%),與OLMo 3 7B(75.5%)相比也更高。在難度更高的MATH(競賽數學)測試中,HRM-Text以56.2%的成績超越了Qwen 3.5 2B(34.2%)、Llama 3.2 3B(48.0%)和OLMo 3 7B(40.0%),只有GPT-3.5的估算分數(約48%)與之相近。
從計算效率的角度看,這組數字更加驚人。OLMo 3 7B使用了約252倍於HRM-Text的計算量(FLOP數),Qwen 3.5 2B使用了約432倍,Llama 3.2 3B使用了約162倍,Gemma 3 4B使用了約96倍。在訓練詞元數量上,OLMo 3 7B使用了約150倍,Qwen 3.5 2B使用了約900倍,Llama 3.2 3B使用了約225倍。換句話說,HRM-Text用不到1%的計算資源,達到了同台競爭者90%甚至超越他們的效果。
研究團隊還將HRM-Text與同為遞歸架構的Huginn 3.5B和Ouro 1.4B進行了比較,結果同樣亮眼。Huginn 3.5B的訓練計算量是HRM-Text的127倍,但它在MMLU只有31.4%、DROP只有17.8%,遠低於HRM-Text。這說明並不是所有的遞歸架構都能達到這樣的效率,HRM-Text的雙時間尺度設計和任務完成訓練目標缺一不可。
為了嚴格驗證實驗結果不是因為訓練數據中包含了測試題(即"數據污染"問題),研究團隊還進行了專門的統計檢驗。他們將每個測試集的問題與訓練語料進行了n-gram匹配,並把測試樣本按照污染程度分成"乾淨"(
七、消融實驗:三項創新,哪個貢獻更大?
為了搞清楚HRM-Text的成功究竟來自哪裡,研究團隊專門設計了一系列對照實驗,逐步拆解各個創新的貢獻。
他們從最基礎的配置出發——用標準Transformer架構、對完整文本(包括問題和回答)計算損失、使用普通的因果注意力掩碼——然後一步步加入新設計,觀察每一步帶來的效果變化。
基礎配置下,同樣是10億參數的Transformer,在MMLU只有40.55%,ARC-C只有51.91%,GSM8K只有48.37%,MATH只有35.44%,表現相當平庸。加入任務完成目標(只對回答部分計算損失)之後,這組數字顯著提升:MMLU升至47.72%,ARC-C升至62.88%,GSM8K升至69.75%,MATH升至47.04%。在此基礎上再加入PrefixLM注意力,效果進一步改善:MMLU升至53.15%,ARC-C升至74.32%,GSM8K升至75.06%,MATH升至48.36%。最後,將架構從Transformer換成HRM,帶來了最大幅度的跳躍:MMLU升至60.73%,ARC-C升至81.91%,GSM8K升至84.53%,MATH升至56.16%。
這組數據非常清晰地說明:三項創新各有貢獻,而且具有相互疊加、相互強化的協同效應。單獨拿出任何一項,效果都是有限的;三者合一,才構成了HRM-Text的真正競爭力。
研究團隊還在同等計算量的條件下比較了HRM與其他類型的遞歸架構。與同樣有遞歸設計的循環Transformer(Looped Transformer)和RINS相比,HRM在絕大多數測試上都取得了最好的成績。例如HRM在MMLU上是60.73%,而循環Transformer是56.51%,RINS是56.09%。在更大的Transformer(30億參數的深度版本和寬度版本)也無法在同等計算量下超越HRM的情況下,HRM的架構優勢得到了有力確認。
八、這個研究意味著什麼:AI研究的民主化時代
說到底,這項研究最深遠的意義,並不僅僅在於某幾項測試分數上的勝出。
HRM-Text代表了一種根本性的理念轉變:在AI研究領域,"燒更多的錢、用更多的數據"並不是唯一的前進路徑。架構設計的智慧和訓練目標的精準,同樣可以創造出超乎想像的效率提升。一個僅用1500美元就能訓練出來的模型,能在多項推理測試上與耗資數百倍的工業級模型相抗衡——這件事本身,就像是一記響亮的警鐘,提醒整個領域重新審視那些"理所當然"的假設。
研究團隊特別指出了這一成果對AI研究"民主化"的潛在意義。當預訓練從零開始變得可以用16塊顯卡、不到兩天就完成時,大學實驗室、小型創業公司乃至個人研究者都擁有了探索新架構、新訓練方法的可能性。這把原本只屬於少數科技巨頭的"權力",放回到了更廣泛的研究社區手中。
當然,研究團隊也坦誠地指出了HRM-Text目前的局限性。在廣博的事實知識覆蓋方面,受限於訓練數據量,HRM-Text與那些在數萬億詞元上訓練的模型之間仍有差距,MMLU分數低於Qwen和OLMo就是這一局限的體現。目前的實驗也只擴展到了30億參數的Transformer和10億參數的HRM,在更大規模下是否能維持同樣的效率優勢,仍有待驗證。此外,HRM的遞歸設計意味著推理時的計算量比單層Transformer更高,這在實際部署中需要工程優化來彌補。
研究團隊也為未來的工作指出了幾個方向。一是將HRM與外部知識庫或檢索增強系統結合,讓它專注於推理計算,把知識儲存交給外部系統——這可能是彌補知識廣度短板的有效路徑。二是引入"自適應計算時間"機制,讓模型對簡單問題少跑幾輪遞歸、對難題多跑幾輪,從而在效率和能力之間動態平衡。三是更深入地探索PrefixLM在多輪對話和工業級推理框架中的工程實現問題。
歸根結底,HRM-Text的意義在於它證明了一件事:在正確的方向上做出聰明的設計選擇,其回報可以是數百倍計算資源的等效節省。這一"概念驗證"性質的成果,邀請整個研究社區重新思考:我們真的需要那麼多算力嗎?還是說,我們只是還沒找到更好的方法?
Q&A
Q1:HRM-Text和普通大語言模型有什麼本質區別?
A:HRM-Text有兩個核心不同點。第一是架構:它採用了雙時間尺度的層級遞歸結構,有一個"慢模組"負責把握大局、一個"快模組"負責細節執行,同一套參數會被反覆使用多次,相當於用較少參數實現了更深的有效計算。第二是訓練方式:它跳過了傳統的海量原始文本預訓練,直接在問答對上訓練,而且只對"回答"部分計算損失,不浪費計算資源在預測"問題"本身上。這兩點結合,使它只需極少的算力就能達到較高性能。
Q2:HRM-Text訓練只花了1500美元,這個數字可信嗎?
A:這個數字是基於研究團隊實際使用的硬體和時間估算的。他們使用了兩個8卡H100節點(共16塊H100顯卡),訓練時長約46小時,按每張H100每小時2美元的市場價格計算,總費用約為1472美元。當然,這個估算不包括前期的架構探索和調試成本,也不包括數據處理的人力成本,實際的研發總投入遠不止於此。但它清晰地說明了一點:單次完整的從零預訓練,在這套方案下確實可以控制在幾千美元級別。
Q3:HRM-Text在推理時比普通模型慢嗎?
A:是的,HRM-Text的遞歸結構意味著每生成一個詞,模型內部需要完成更多次計算循環(相當於普通Transformer的4倍左右計算量),推理速度會比參數量相近的單層Transformer慢。不過研究團隊也提出了"自適應計算時間"的改進方向——讓簡單問題少跑幾輪遞歸、難題多跑幾輪,從而減少不必要的計算開銷。此外,他們還實驗了一種"自動引導"機制,利用中間遞歸狀態的資訊來微調最終預測,不增加額外計算量就能略微提升準確率。






