花1500美元、40天數據，Sapient Intelligence打造出可媲美70億參數大模型的AI——大型語言模型的平民化時代來了？

這項由Sapient Intelligence與麻省理工學院（MIT）合作完成的研究，於2026年5月20日以arXiv預印本形式發布，論文編號為arXiv:2605.20613v1，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

當今的人工智慧軍備競賽里，誰燒的錢多、誰的電費賬單更嚇人，似乎就代表誰更厲害。訓練一個像樣的大語言模型，動輒需要幾千張頂級顯卡跑上幾個月，耗費數億乃至數十億美元。這道幾乎無法逾越的門檻，讓絕大多數大學實驗室、小型研究團隊甚至個人研究者只能望洋興嘆——他們根本沒有資格參與這場遊戲，更別說提出新想法、驗證新架構了。

然而，Sapient Intelligence與MIT的這支研究團隊偏偏不信這個邪。他們提出了一個聽起來近乎異端的問題：如果我們換一種更聰明的方式訓練AI，是否可以用極少的資源達到同樣的效果？答案令人吃驚——他們用16塊顯卡、僅僅1.9天的時間、花費約1500美元，從零開始訓練出了一個名為HRM-Text的10億參數模型。這個模型在多項權威測試中的表現，與那些動用了數百倍算力、處理了數百倍訓練數據的20億至70億參數主流模型相抗衡，甚至在某些推理類測試中超越了它們。

這不是變魔術，背後有兩項真正的技術突破：一是受人類大腦啟發的全新神經網路結構，二是徹底顛覆傳統的訓練方式。這篇文章將帶你一步步揭開HRM-Text的秘密。

一、為什麼大腦學東西比AI更省力？從人類神經科學找答案

要理解HRM-Text為什麼與眾不同，先得明白當前主流AI模型是怎麼學習的，以及為什麼這種方式如此"浪費"。

現在幾乎所有的大語言模型，包括大家熟悉的GPT、Llama、Qwen等，在訓練時都遵循同一套劇本：先把網際網路上能搜集到的所有文字——新聞、小說、論壇帖子、百科詞條、代碼、食譜——統統塞給模型，讓它一個字一個字地猜下一個字是什麼。這個過程叫做"無監督預訓練"，它的邏輯是：只要見過足夠多的文字，模型自然就能學會語言的規律，學會世界的知識。

贊助商廣告

這個思路不是沒有道理，但代價驚人。模型需要反覆揣摩大量與最終任務毫無關係的內容，比如預測一段網路小說的下一句，或者記住某位名人的生日——這些對於一個最終被用來回答問題、寫代碼的模型來說，其實是"無效練習"。就像要培養一個出色的廚師，卻讓他先把世界上所有的食譜都背下來，包括那些他永遠不會用到的菜系，而且還要能一字不差地默寫出來。

人類的大腦從來不是這樣學習的。神經科學的研究表明，人腦在處理資訊時有一套精妙的"雙軌機制"，被稱為額頂葉迴路（frontoparietal loop）。簡單來說，大腦里有兩類節奏截然不同的處理過程同時運行：一類運行得慢，負責把握大局、維持戰略性的上下文理解，就像一位在棋局中深思遠慮的棋手；另一類運行得快，負責快速執行具體的細節操作，就像棋手熟練地落子。正是這種"慢思考+快執行"的雙層結構，讓人腦能夠在極少樣本的情況下快速掌握新知識。

Sapient Intelligence的研究人員此前就基於這個靈感，開發了一種叫做"層級遞歸模型"（Hierarchical Recurrent Model，簡稱HRM）的神經網路架構，並在組合邏輯推理等符號任務上取得了很好的效果。但將這套架構用於語言模型，面臨的挑戰要大得多——語言的世界比棋盤或數學題複雜出幾個數量級，隨之而來的是嚴峻的訓練不穩定性問題。如何馴服這匹"野馬"，是他們需要攻克的第一道難關。

二、"慢大腦+快大腦"的機器實現：HRM架構是怎麼工作的

理解HRM的結構，可以用一個小小的類比：假設你在解一道複雜的數學題，你的思維過程大致分兩層。外層是你的"總指揮"，它負責把握解題的整體思路，比如"這道題應該用代入法"，它不會頻繁變化，而是在幾個關鍵節點才更新一次判斷。內層是你的"執行手"，它根據總指揮的方向，一步一步地進行具體的運算，動作頻繁而細緻。

贊助商廣告

HRM的結構正是如此。它包含兩種模組：H模組（慢模組）和L模組（快模組）。在每一次完整的處理過程中，模型會先通過輸入的詞語初始化一個"全局狀態"，然後進入兩輪大循環。每輪大循環里，L模組會快速執行三次細節處理，之後H模組才進行一次全局狀態的更新。最終，模型根據H模組輸出的結果來預測下一個詞。這個結構意味著：同樣數量的參數，在HRM里會被反覆使用多次，而不是像普通的Transformer網路那樣，每一層參數只被用一次就"過去了"。

與傳統的Transformer相比，HRM相當於用同等數量的"零件"，搭建出了一座更高的"樓"——參數不增加，但有效的計算深度大大增加。研究團隊將這種能力稱為"有效深度"，並通過多種實驗手段加以驗證。其中有一個叫做"logit lens"的分析方法，可以把模型每一層的中間狀態"翻譯"成它在那一刻的預測結果，然後看這個預測與最終答案有多大差距。對於普通的Transformer和循環Transformer來說，這個差距在較淺的層就會迅速收斂到很小——意味著深層的計算其實沒發揮太大作用。而HRM的深層依然保持著較大的差距，說明它的每一層都在踏踏實實地做出貢獻，沒有"摸魚"。

在另一項分析中，研究人員還觀察了相鄰兩層之間隱藏狀態的變化幅度。HRM每層之間的變化幅度均值為34.12，而循環Transformer是29.65，RINS是25.42——HRM的"每一步都走得更紮實"，層與層之間的表示不會趨於雷同，避免了所謂的"表示過平滑"問題，即模型深層的向量越來越像、失去辨別力的通病。

三、如何訓練一匹"不受控制的野馬"：MagicNorm與漸進式梯度策略

架構設計完畢，下一個問題接踵而至：循環網路歷來以難以訓練著稱。每次反覆"摺疊"同一套參數，就像把一張紙來回摺疊一百次——梯度在反向傳播時，會經歷類似的"乘法鏈式效應"，要麼越乘越小趨近於零（梯度消失），要麼越乘越大爆炸式增長（梯度爆炸），兩者都會讓訓練徹底失控。

贊助商廣告

為了解決這個問題，研究團隊發明了一種叫做"MagicNorm"的歸一化技術。要理解它的妙處，先得知道神經網路中兩種常見的歸一化方式各有什麼缺陷。

一種叫做"後歸一化"（PostNorm），它的做法是在每一層的輸出處做歸一化。這個方式的優點是讓每一步的激活值都被約束在一個合理範圍內，前向傳播很穩定；缺點是它打斷了"直通路徑"，梯度在反向傳播時必須穿越歸一化層才能到達更早的層，在網路很深的時候容易造成梯度消失。另一種叫做"前歸一化"（PreNorm），它的做法是在每一層的輸入處做歸一化。優點是保留了一條"高速公路"——誤差信號可以直接跳回到早期層，梯度流動更順暢；缺點是殘差連接上的激活值沒有被歸一化，隨著層數加深會越來越大，可能導致表示退化。

MagicNorm巧妙地把兩者結合起來，並利用了遞歸訓練中一個獨特的不對稱性：前向傳播和反向傳播經歷的"深度"不同。在前向傳播時，隱藏狀態要經歷所有N次遞歸步驟，每一步末尾都有一個歸一化操作，這讓激活值始終被約束在合理範圍內，擁有PostNorm的前向穩定性。但在反向傳播時，研究團隊採用了"截斷反向傳播"策略，誤差只會被傳播回最近的K步（K遠小於N），在這有限的幾步里，梯度走的是內部PreNorm的"高速公路"，享受PreNorm的梯度流動優勢。換句話說，MagicNorm在前向看起來像PostNorm，在反向看起來像PreNorm，兼得兩者之長，避開兩者之短。

除了MagicNorm，訓練策略上還有第二項創新：漸進式梯度策略（warmup deep credit assignment）。在訓練剛開始時，模型還處於"懵懵懂懂"的狀態，這時候如果讓誤差信號傳播太遠，就好比讓一個剛學會走路的孩子立刻去跑馬拉松——不僅跑不好，還容易摔跤。因此，研究團隊在訓練初期只讓誤差傳播回最近的兩個遞歸步驟（K=2），等模型訓練得更穩定後，再逐漸擴展到最近的五個步驟（K=5）。這種"先走短程、再走長程"的漸進方式，既讓模型在早期快速穩定下來，又讓它最終能夠學到更長程的依賴關係。

贊助商廣告

研究團隊還專門做了一系列實驗來驗證這套訓練策略的必要性。他們對比了在不同反向傳播深度下，模型的梯度變化情況。結果顯示，當使用完整的反向傳播時（Full BPTT），梯度幅度會出現罕見但極其劇烈的"尖峰"——在漫長平靜的訓練過程中，突然出現一次高達35倍於正常值的梯度爆炸，這會嚴重破壞模型參數。而截斷反向傳播則大大減少了這類危險事件的發生。此外，他們還發現，不穩定性主要來自H模組的遞歸深度，而非L模組，因此H模組的梯度截斷是重中之重。

四、徹底顛覆訓練方式：只學"有用的"，丟掉"無用的"

解決了架構和訓練穩定性問題之後，研究團隊還在訓練數據和訓練目標上做了一次根本性的顛覆。

傳統的大語言模型訓練分兩個階段。第一階段是"預訓練"，餵給模型海量的原始網際網路文本，訓練目標是預測每一個詞——無論這個詞是問題還是回答、是有意義的內容還是格式噪聲，模型都得學。第二階段是"微調"，再用高質量的問答數據對模型進行精調。整個流程耗時耗力，而且大量的計算資源都花在了學習"沒用的"部分上——比如學會預測一道題的題干，但題干在推理時是已知的，根本不需要模型去生成。

HRM-Text完全跳過了第一階段，直接從零開始、在結構化的問答數據上訓練。更關鍵的是，訓練目標只計算模型對"回答"部分的預測損失，對"問題"部分不計算損失。這就好比培訓一個客服代表，只考核他的回答質量，而不要求他去背誦顧客可能提出的每一種問題的原文——後者本來就是已知的輸入，根本無需死記硬背。

這種訓練方式在技術上叫做"任務完成目標"，配合使用了一種叫做"PrefixLM注意力掩碼"的技術。普通的因果語言模型在處理一段文字時，每個詞只能"看到"它前面的詞，保持單向的因果關係。而PrefixLM打破了這個限制：在問題（指令）部分，所有詞都可以互相看到，形成雙向的完整理解；在回答（生成）部分，則恢復單向的因果生成，確保模型一個詞一個詞地給出答案。這給了模型一個巨大優勢：它能在回答之前，對整個問題形成充分而全面的理解，而不是只看到問題的"前半段"就開始回答。

贊助商廣告

實驗數據清楚地說明了這兩項改動的效果。在計算量相同的條件下，單純用完整文本訓練的標準因果模型，在測試中的回答質量最差。加入"只計算回答部分損失"之後，模型的回答準確率有了明顯提升。在此基礎上再加入PrefixLM，準確率進一步上升。研究團隊還測量了不同層的注意力熵（一種衡量注意力"視野寬廣程度"的指標），發現PrefixLM確實讓模型在回答時能夠注意到更多樣化的輸入詞彙，而非只盯著最近幾個詞——這與"能看全整道題"的直覺一致。

五、40億個詞的訓練數據：精挑細選，而非來者不拒

完成了架構和訓練方式的設計之後，還有一道關鍵工序：數據準備。HRM-Text使用的訓練數據總量只有400億個詞元（token），這在當今動輒數萬億詞元的大模型訓練標準中，簡直少得可憐。但"少"不代表"差"，研究團隊在數據的質量和多樣性上下足了功夫。

整個訓練數據集由七個大類組成，來源全部是公開的開源數據集。其中最大的一類是通用指令數據，包括FLAN、Tasksource等大型指令集，以及NoRobots等高質量人工編寫數據，合計約1387億詞元的原始語料，但通過採樣壓縮到了一個合理的比例。第二類是"改寫的維基百科知識"，研究團隊使用了一個叫做SYNTH的數據集，它將維基百科的知識改寫成了問答對的形式，更符合HRM-Text的訓練目標。數學與推理類數據是第三類，包含Platypus、NuminaMath等多個數學問題數據集。符號推理類數據是第四類，包括經典的DM Math數學符號推理題和極難的數獨題。第五類是"去除思維鏈的推理數據"——研究團隊特別從AceReason、OpenThoughts2等數據集中刪除了那些長篇的"思考過程"文字（被`...`標籤包裹的內容），只保留最終答案，這是一個有意為之的設計選擇：他們希望模型依靠自身的內部遞歸計算來推理，而不是依賴顯式的"口頭推理步驟"。第六類是教材習題，第七類是從網頁提取的問答內容。

贊助商廣告

在採樣策略上，研究團隊採用了分層採樣的方式，把每個數據集或任務類型作為獨立的"層"來處理，避免大型數據集的海量數據把小型但高質量的數據集完全淹沒。對於那些特別龐大的數據集（如FLAN），設置了每個任務最多採樣5000個文檔的上限；對於特別小的數據集（不超過5萬個文檔），則允許最多重複使用10次，以確保它們能夠充分參與訓練。

另外，研究團隊還採用了條件標籤的方式來控制模型的回答風格。在每個訓練樣本的指令前面，會加上四種不同的條件標籤之一：`direct`（直接給出答案，不展開）、`cot`（採用思維鏈格式逐步推理）、`synth`（模仿合成數據的回答風格）和`noisy`（保留網路爬取文本的不規則格式）。通過這種方式，用戶在推理時只需在問題前加上對應的標籤，就能控制模型給出哪種風格的回答。

六、用一塊錢的成本，打敗花了四百塊的對手：實驗結果全景

接下來是所有人最關心的部分：HRM-Text到底有多好？

研究團隊在八項權威基準測試上評估了HRM-Text 1B（10億參數）模型，並與Llama 3.2 3B（Meta出品，30億參數）、Gemma 3 4B（Google出品，40億參數）、Qwen 3.5 2B（阿里出品，20億參數）、OLMo 3 7B（70億參數）等主流開源模型進行了對比。

在通用知識測試MMLU上，HRM-Text 1B得分60.7%，而Qwen 3.5 2B達到64.5%、OLMo 3 7B達到65.8%，稍有差距。這個結果符合預期——MMLU主要考察廣博的事實知識記憶，而HRM-Text的訓練數據量只有這些模型的百分之一甚至更少，知識覆蓋面天然受限。

然而，在更側重推理能力的測試中，HRM-Text的表現令人刮目相看。在ARC-C（常識推理）測試中，HRM-Text以81.9%的成績與OLMo 3 7B的81.6%幾乎持平，超過了Llama 3.2 3B的69.1%和Gemma 3 4B的56.2%。在DROP（閱讀理解與算術推理）測試中，HRM-Text以82.2%的成績勝過了所有比較對象，Gemma 3 4B是60.1%，OLMo 3 7B是71.5%。在GSM8K（小學數學應用題）測試中，HRM-Text以84.5%的成績超越了Llama 3.2 3B（77.7%）、Qwen 3.5 2B（53.0%）和Gemma 3 4B（38.4%），與OLMo 3 7B（75.5%）相比也更高。在難度更高的MATH（競賽數學）測試中，HRM-Text以56.2%的成績超越了Qwen 3.5 2B（34.2%）、Llama 3.2 3B（48.0%）和OLMo 3 7B（40.0%），只有GPT-3.5的估算分數（約48%）與之相近。

贊助商廣告

從計算效率的角度看，這組數字更加驚人。OLMo 3 7B使用了約252倍於HRM-Text的計算量（FLOP數），Qwen 3.5 2B使用了約432倍，Llama 3.2 3B使用了約162倍，Gemma 3 4B使用了約96倍。在訓練詞元數量上，OLMo 3 7B使用了約150倍，Qwen 3.5 2B使用了約900倍，Llama 3.2 3B使用了約225倍。換句話說，HRM-Text用不到1%的計算資源，達到了同台競爭者90%甚至超越他們的效果。

研究團隊還將HRM-Text與同為遞歸架構的Huginn 3.5B和Ouro 1.4B進行了比較，結果同樣亮眼。Huginn 3.5B的訓練計算量是HRM-Text的127倍，但它在MMLU只有31.4%、DROP只有17.8%，遠低於HRM-Text。這說明並不是所有的遞歸架構都能達到這樣的效率，HRM-Text的雙時間尺度設計和任務完成訓練目標缺一不可。

為了嚴格驗證實驗結果不是因為訓練數據中包含了測試題（即"數據污染"問題），研究團隊還進行了專門的統計檢驗。他們將每個測試集的問題與訓練語料進行了n-gram匹配，並把測試樣本按照污染程度分成"乾淨"（

七、消融實驗：三項創新，哪個貢獻更大？

為了搞清楚HRM-Text的成功究竟來自哪裡，研究團隊專門設計了一系列對照實驗，逐步拆解各個創新的貢獻。

他們從最基礎的配置出發——用標準Transformer架構、對完整文本（包括問題和回答）計算損失、使用普通的因果注意力掩碼——然後一步步加入新設計，觀察每一步帶來的效果變化。

基礎配置下，同樣是10億參數的Transformer，在MMLU只有40.55%，ARC-C只有51.91%，GSM8K只有48.37%，MATH只有35.44%，表現相當平庸。加入任務完成目標（只對回答部分計算損失）之後，這組數字顯著提升：MMLU升至47.72%，ARC-C升至62.88%，GSM8K升至69.75%，MATH升至47.04%。在此基礎上再加入PrefixLM注意力，效果進一步改善：MMLU升至53.15%，ARC-C升至74.32%，GSM8K升至75.06%，MATH升至48.36%。最後，將架構從Transformer換成HRM，帶來了最大幅度的跳躍：MMLU升至60.73%，ARC-C升至81.91%，GSM8K升至84.53%，MATH升至56.16%。

贊助商廣告

這組數據非常清晰地說明：三項創新各有貢獻，而且具有相互疊加、相互強化的協同效應。單獨拿出任何一項，效果都是有限的；三者合一，才構成了HRM-Text的真正競爭力。

研究團隊還在同等計算量的條件下比較了HRM與其他類型的遞歸架構。與同樣有遞歸設計的循環Transformer（Looped Transformer）和RINS相比，HRM在絕大多數測試上都取得了最好的成績。例如HRM在MMLU上是60.73%，而循環Transformer是56.51%，RINS是56.09%。在更大的Transformer（30億參數的深度版本和寬度版本）也無法在同等計算量下超越HRM的情況下，HRM的架構優勢得到了有力確認。

八、這個研究意味著什麼：AI研究的民主化時代

說到底，這項研究最深遠的意義，並不僅僅在於某幾項測試分數上的勝出。

HRM-Text代表了一種根本性的理念轉變：在AI研究領域，"燒更多的錢、用更多的數據"並不是唯一的前進路徑。架構設計的智慧和訓練目標的精準，同樣可以創造出超乎想像的效率提升。一個僅用1500美元就能訓練出來的模型，能在多項推理測試上與耗資數百倍的工業級模型相抗衡——這件事本身，就像是一記響亮的警鐘，提醒整個領域重新審視那些"理所當然"的假設。

研究團隊特別指出了這一成果對AI研究"民主化"的潛在意義。當預訓練從零開始變得可以用16塊顯卡、不到兩天就完成時，大學實驗室、小型創業公司乃至個人研究者都擁有了探索新架構、新訓練方法的可能性。這把原本只屬於少數科技巨頭的"權力"，放回到了更廣泛的研究社區手中。

當然，研究團隊也坦誠地指出了HRM-Text目前的局限性。在廣博的事實知識覆蓋方面，受限於訓練數據量，HRM-Text與那些在數萬億詞元上訓練的模型之間仍有差距，MMLU分數低於Qwen和OLMo就是這一局限的體現。目前的實驗也只擴展到了30億參數的Transformer和10億參數的HRM，在更大規模下是否能維持同樣的效率優勢，仍有待驗證。此外，HRM的遞歸設計意味著推理時的計算量比單層Transformer更高，這在實際部署中需要工程優化來彌補。

贊助商廣告

研究團隊也為未來的工作指出了幾個方向。一是將HRM與外部知識庫或檢索增強系統結合，讓它專注於推理計算，把知識儲存交給外部系統——這可能是彌補知識廣度短板的有效路徑。二是引入"自適應計算時間"機制，讓模型對簡單問題少跑幾輪遞歸、對難題多跑幾輪，從而在效率和能力之間動態平衡。三是更深入地探索PrefixLM在多輪對話和工業級推理框架中的工程實現問題。

歸根結底，HRM-Text的意義在於它證明了一件事：在正確的方向上做出聰明的設計選擇，其回報可以是數百倍計算資源的等效節省。這一"概念驗證"性質的成果，邀請整個研究社區重新思考：我們真的需要那麼多算力嗎？還是說，我們只是還沒找到更好的方法？

Q&A

Q1：HRM-Text和普通大語言模型有什麼本質區別？

A：HRM-Text有兩個核心不同點。第一是架構：它採用了雙時間尺度的層級遞歸結構，有一個"慢模組"負責把握大局、一個"快模組"負責細節執行，同一套參數會被反覆使用多次，相當於用較少參數實現了更深的有效計算。第二是訓練方式：它跳過了傳統的海量原始文本預訓練，直接在問答對上訓練，而且只對"回答"部分計算損失，不浪費計算資源在預測"問題"本身上。這兩點結合，使它只需極少的算力就能達到較高性能。

Q2：HRM-Text訓練只花了1500美元，這個數字可信嗎？

A：這個數字是基於研究團隊實際使用的硬體和時間估算的。他們使用了兩個8卡H100節點（共16塊H100顯卡），訓練時長約46小時，按每張H100每小時2美元的市場價格計算，總費用約為1472美元。當然，這個估算不包括前期的架構探索和調試成本，也不包括數據處理的人力成本，實際的研發總投入遠不止於此。但它清晰地說明了一點：單次完整的從零預訓練，在這套方案下確實可以控制在幾千美元級別。

Q3：HRM-Text在推理時比普通模型慢嗎？

A：是的，HRM-Text的遞歸結構意味著每生成一個詞，模型內部需要完成更多次計算循環（相當於普通Transformer的4倍左右計算量），推理速度會比參數量相近的單層Transformer慢。不過研究團隊也提出了"自適應計算時間"的改進方向——讓簡單問題少跑幾輪遞歸、難題多跑幾輪，從而減少不必要的計算開銷。此外，他們還實驗了一種"自動引導"機制，利用中間遞歸狀態的資訊來微調最終預測，不增加額外計算量就能略微提升準確率。

贊助商廣告