這項由日本東北大學自然語言處理實驗室主導完成的研究,於2026年6月17日以預印本形式發布,論文編號為arXiv:2606.19005。感興趣的讀者可通過該編號在arXiv平台查閱完整論文。
你有沒有想過,一個AI在生成文字時,到底是怎麼"想"出那些詞的?我們熟悉的ChatGPT那類AI,寫文章的方式就像一個人從左到右一個字一個字地打字——每敲下一個字,就再決定下一個字是什麼,絕對不會回頭修改已經敲出去的字。這聽起來很自然,但其實有一個根本性的局限:它永遠無法"後悔",無法在寫到第五十個字的時候忽然意識到第三個字用錯了,然後回去改掉它。
東北大學的研究團隊造出了一種完全不同的AI寫作方式,他們把這個模型叫做**Sumi**(日文"墨"的意思,正好暗合了文字從噪音中慢慢浮現的意象)。Sumi不是從左到右一字一字地寫,而是更像一個畫家在畫布上反覆塗改——先在整張畫布上鋪滿隨機的噪點,然後一遍遍地把那些"說不準的位置"擦掉重寫,直到整幅畫變得清晰完整。更關鍵的是,Sumi的任何一個位置,在任何時刻都可以被重新修改,沒有哪個字是"已經定了不能動"的。這種方式在學術上叫做"均勻擴散語言模型"(Uniform Diffusion Language Model,簡稱UDLM)。
Sumi的規模相當可觀:70億個參數(這大約是目前主流大模型的常見體量),在1.5萬億個詞語的數據上從頭訓練出來。訓練從零開始,沒有藉助任何已有的大模型打基礎。這在"均勻擴散"這個技術路線上,是第一次有人做到如此大的規模,也是第一次有人完整公開了訓練所用的數據配方、模型權重和所有訓練細節。研究團隊希望藉此讓學術界能夠真正研究和復現這一類模型,而不只是看著論文裡的數字干著急。
一、AI寫字的兩種流派:流水線工人 vs. 反覆打磨的工匠
要真正理解Sumi的獨特之處,需要先聊清楚AI生成文字這件事到底有哪些不同的思路。
目前最主流的AI寫作方式,就是我們熟悉的ChatGPT、LLaMA這一類,學術上叫"自回歸模型"(Autoregressive Model)。這類AI就像一條裝配流水線上的工人——流水線只朝一個方向走,每一站只做一件事,做完就傳給下一站,已經裝好的零件不能拆下來重來。這種方式效率很高,而且在大量數據下訓練出來的效果非常好,是目前工業界的主流。
另一種思路叫做"擴散模型"(Diffusion Model),最初是在圖像生成領域大放異彩的——比如能畫出逼真照片的AI。擴散模型的核心邏輯是"從亂到整":先把一張畫布搞得亂七八糟(充滿噪點),然後一步一步地把噪點去掉,最終得到一張清晰的圖。把這個思路移植到文字生成上,就成了"擴散語言模型"。
擴散語言模型本身又分成兩個流派。一個流派叫"掩碼擴散"(Masked Diffusion),代表是LLaDA這類模型——它的做法是先把文字里的某些位置換成[MASK](空格),然後逐步把這些空格填上。一旦某個空格被填上了某個詞,這個詞就固定了,不能再改。另一個流派就是本文的主角——"均勻擴散"(Uniform Diffusion)。均勻擴散不僅僅填補空格,而是允許任何一個位置的任何詞在任何時刻被替換成別的詞,沒有任何位置是永久鎖定的。這就像素描和油畫的區別——鉛筆畫一旦塗成黑色就很難改,油畫則可以在任何位置反覆疊加和修改顏色。
這種"任意時刻都能修改"的特性,理論上賦予了均勻擴散模型一種非常吸引人的能力:自我糾錯。模型可以先寫一個草稿,然後在後續的步驟里意識到某個詞用得不好,把它換掉。然而,這種理論上的優勢在實際訓練中究竟能不能實現,一直是個謎——因為在此之前,從未有人真正用大規模數據把這類模型訓練到可以認真討論其能力的程度。
二、Sumi是怎麼被"培養"出來的:一張精心設計的學習食譜
訓練一個大型語言模型,最重要的兩樣東西是"學什麼"和"怎麼學"。研究團隊在這兩方面都做了大量細緻的工作。
關於"學什麼",也就是訓練數據,Sumi的整個學習過程分成兩個階段,各有側重。第一階段叫預訓練,用了約1.3萬億個詞。這些數據的主體(接近70%)來自網際網路網頁文本,但有一個關鍵的篩選步驟:所有網頁文本都經過了一個"教育價值評分"系統評分,只保留得分高的內容。打個比方,如果把網際網路比作一個巨大的圖書館,普通的爬蟲會把所有書都掃進去,包括各種閒聊帖子和垃圾廣告;而Sumi的做法是讓一個"圖書管理員"(一個輕量級的AI分類器,它的判斷標準來自Qwen3-32B這個更強大AI的評分經驗)提前瀏覽每一本書,只留下那些對學習有價值的內容。剩餘部分包括學術論文(約6.5%)、數學內容(約3.5%)和代碼(約13%)。
第二階段叫中期訓練,又額外學了約2500億個詞。這一階段的數據配方更加"精英化":代碼占了約32.5%,數學內容占約29.7%,推理類內容(如邏輯題、解題過程)占約16.8%,通用文本只占21%。換句話說,這一階段相當於讓已經有了基礎知識的學生集中強化數學、編程和邏輯推理,就像高中生在大學入學考試前集中刷題。中期訓練還特意把模型能處理的文本長度從約1184個詞拓展到了約4864個詞,讓模型能處理更長的文章和代碼段。
關於"怎麼學",Sumi在底層數學框架上採用了一種叫做GIDD(廣義插值離散擴散)的訓練目標,並結合了一種用"信噪比"來重新表述學習目標的改進方法。這些技術細節的核心含義是:模型需要學會在各種程度的"混亂"狀態下(從非常嘈雜到相對清晰),都能準確預測出正確的詞應該是什麼。整個訓練在288塊英偉達
H100顯卡上進行,消耗了約43308個GPU小時。
Sumi的具體架構採用了業界常用的LLaMA風格設計:36層Transformer結構,每層有4096維的隱藏表示,使用分組查詢注意力機制(32個注意力頭,8個KV組),還用了SwiGLU激活函數和RMSNorm歸一化。為了讓訓練更穩定,研究團隊還引入了一種叫"偏移一格的softmax"的小技巧來避免注意力機制的退化問題。模型使用了OLMo 3的分詞器,詞彙量約10萬個詞條。
三、Sumi的考試成績:在哪些科目上表現亮眼,在哪裡被比下去了
研究團隊用13個標準測試題庫對Sumi進行了全面測試,涵蓋通用知識、推理與數學、編程和常識四大類別,並與三個同等規模(70億參數左右)、類似訓練數據量(1萬億至2.5萬億詞)的自回歸模型——Falcon-7B、Llama 2-7B和OLMo-7B——在完全相同的測試條件下進行了公平比較。
在通用知識方面,Sumi的表現相當突出。在MMLU(考察各學科綜合知識的大型測試)上,Sumi得了51.1分,而Falcon-7B只有27.2分,Llama 2-7B是46.0分,OLMo-7B是28.0分。在TruthfulQA(測試AI會不會說假話的題庫)上,Sumi以46.6分領先於其他三個同類模型。這與Sumi訓練數據偏重高教育價值內容的策略高度吻合——大量篩選過的教育性文本確實幫助Sumi積累了更紮實的知識。
在編程能力方面,Sumi同樣是四個模型里最強的。HumanEval(讓AI寫Python代碼然後用測試用例驗證)上,Sumi得了22.6分,而Falcon-7B得了0分,Llama 2-7B得了12.8分,OLMo-7B得了13.4分。這同樣與訓練數據里大量代碼內容的比例相符。
在推理和數學方面,Sumi的成績比較中規中矩。GSM8K(小學數學應用題)上,Sumi得了32.8分,比Llama 2-7B的13.5分和Falcon-7B的5.3分高不少,但與同規模的掩碼擴散模型LLaDA-8B的70.3分相比差距明顯。BBH(挑戰性邏輯推理題集)上,Sumi得31.8分,略高於Falcon-7B的27.1分,但低於Llama 2-7B的39.6分。
最大的短板出現在常識類測試上。PIQA(考察物理常識)上,Sumi得66.4分,而Falcon-7B高達80.5分,Llama 2-7B是78.7分,OLMo-7B是79.8分。HellaSwag(預測故事下一句)和WinoGrande(判斷代詞指代)上也出現了類似的差距,Sumi都是四個模型里得分最低的。
研究團隊認為,常識類的短板很可能與訓練數據的篩選策略有關。那些充滿日常對話、生活常識的網頁文本,恰恰在"教育價值"篩選中得分偏低,因此被大量剔除了。訓練數據越"精英化",模型學到的日常常識就越少。就像一個從小在圖書館裡長大、只讀教科書的孩子,數理化可能非常出色,但問起"掃地要先倒垃圾還是先拖地"這類生活問題,可能就沒有那個整天在社區里跑來跑去的孩子答得自然。不過研究團隊也坦承,這個解釋無法完全說明差距的大小,背後可能還有其他原因有待研究。
值得一提的是,研究團隊在與LLaDA-8B和Llama 3-8B的對比中提醒讀者,這兩個參數量稍大、訓練數據也更多(分別是2.3萬億和15萬億詞)的模型,在多個測試上都明顯更強,但它們是在不同測試條件下取得的成績,屬於參考數字而非直接競爭。
四、擴散模型生成文字時的四個有趣觀察
除了常規的測試成績,研究團隊還做了一系列實驗,專門觀察Sumi在實際生成文字時的行為,每個任務抽取30道題來探索。這些觀察都是方向性的線索,而非最終定論,研究團隊也明確說明這些只是初步探索,旨在給未來研究提供方向。
第一個觀察關於"畫布大小"對寫作質量的影響。均勻擴散模型生成文字時需要事先確定一個"畫布"——也就是給這次生成分配多少格子來填寫詞語。如果畫布太小,詞不夠寫;如果太大,多餘的格子就用隨機詞填充。研究團隊發現,Sumi只有在畫布大小處於它訓練時見過的範圍(大約1024到4096個詞)內,生成的文字才是通順流暢的;一旦畫布比這個範圍小很多,模型就開始生成語無倫次的內容,在數學題(GSM8K)上這種崩潰來得尤其早;畫布太大時其他任務還算穩定,但數學題同樣會崩潰。研究團隊最終統一使用2048這個值,這個長度處於訓練範圍內,對所有測試任務都能產生流暢的輸出。用一個比喻來說,這就像一個習慣在A4紙上寫字的人,突然給他一張名片大小的紙,或者給他一張海報大小的紙,他都會覺得怎麼寫都彆扭。
第二個觀察關於"信心採樣"如何給本來沒有順序的模型帶來隱性順序。均勻擴散模型在設計上是沒有固定寫作順序的——它可以先填第50個位置,再填第3個位置,完全自由。但研究團隊採用了一種叫做"信心採樣"(confidence sampling)的策略:每一步,優先把模型"最有把握"的那些位置的詞確定下來,把"最沒把握"的留到後面。這種策略顯著提升了Sumi在生成任務上的成績。更有趣的是,研究團隊發現在信心採樣下,不同任務里詞語被確定的順序呈現出了任務特定的規律——比如某類任務里總是先確定開頭,某類任務里總是先確定關鍵詞。而如果換用"隨機採樣"(每一步隨機選一些位置確定),就看不到這種規律。這說明信心採樣讓一個本來沒有順序偏好的模型,自發地"學會"了適合不同任務的寫作順序,就像一個本來隨心所欲的畫家,被要求"先畫最有把握的部分"之後,反而自然地形成了一套有條理的繪畫流程。
第三個觀察關於"一步確定幾個詞"對質量的影響。每一輪去噪時,可以選擇只確定1個詞,也可以一次確定多個詞來加快速度。研究團隊發現,對於編程任務(HumanEval、MBPP),每步確定2到4個詞,成績基本不受影響;但對於數學應用題(GSM8K),一旦每步超過1個詞,成績就開始下滑。這說明編程任務的詞語之間依賴關係相對鬆散,可以並行處理;而數學解題過程需要嚴格的步驟順序,強行並行會破壞邏輯鏈。這對提高推理速度有實際意義——至少在編程類任務上,可以用少量精度損失換來明顯的速度提升。
第四個觀察關於"給模型更多時間修改,它真的會改得更好嗎"。這是最直接地檢驗均勻擴散"自我糾錯"理論優勢的實驗。研究團隊讓模型在完成初稿後,額外再運行1倍、3倍、7倍的修改時間,觀察最終答案有沒有變化。結果相當耐人尋味:修改操作確實發生了,比例從58%到100%不等(意味著模型確實在改動已確定的詞);但淨效果幾乎為零——最終與初稿不同的詞不超過1%,答案幾乎完全沒有翻轉(30道題里最多只有1題答案改變了),準確率也沒有任何提升。仔細觀察改動軌跡發現,大多數改動都是"把A改成B,然後又把B改回A"的來回擺動,而不是真正向更好的答案靠攏。這說明在當前的設置下,Sumi雖然具備修改的能力,卻不具備判斷"什麼時候需要修改、改成什麼才更好"的智慧。這一發現既令人有些失望(理論上的優勢沒有實現),也讓人對未來有所期待——或許有針對性地設計"錯誤檢測與定向修改"機制,才能真正釋放這種潛力。
五、完全開放:為什麼這件事本身很重要
Sumi這個項目有一個貫穿始終的重要承諾:完全開放。研究團隊發布了模型權重(可以直接下載使用的模型文件)、訓練過程中的多個中間檢查點(就像保存了不同階段的草稿,可以研究模型是如何一步步變化的)、完整的訓練代碼,以及詳細的數據配方(用了哪些數據集、各占多大比例、如何篩選)。所有訓練數據均來自公開可獲取的語料庫,研究團隊沒有重新分發數據,而是詳細記錄了獲取和篩選方法,使得任何人理論上都可以復現一個功能相當的訓練數據集。
這種完全開放在當前AI研究環境中並不常見。在自回歸模型領域,OLMo是另一個做到類似開放程度的例子;在擴散語言模型領域,Sumi目前是這一技術路線上唯一同時做到大參數規模、大數據規模和完全開放的模型。正如研究團隊在論文裡說的,自回歸模型和掩碼擴散模型已經有了可以研究和借鑑的標杆,而均勻擴散模型領域此前沒有。Sumi的出現,是要填補這個空白。
研究團隊還坦誠地指出了Sumi的局限性和風險:這是一個未經指令微調和安全對齊的基礎預訓練模型,不適合直接部署到面向用戶的產品中;它可能在不當提示下生成有害或虛假內容;它對事實的準確性沒有任何保證機制。研究團隊明確表示,Sumi的發布目的是支持研究,而非直接商用,並鼓勵使用者在具體應用場景中自行評估相關風險。
說到底,Sumi這項工作的價值不在於它在某一項測試上打敗了誰,而在於它為一個此前缺乏參照物的技術路線提供了一個紮實的起點。均勻擴散語言模型究竟能走多遠,在大規模訓練下有哪些規律,自我糾錯的潛力如何才能真正釋放——這些問題在Sumi出現之前都難以認真討論,因為缺乏合適的實驗對象。現在這個對象有了,而且完全公開,任何人都可以在上面做實驗。接下來研究團隊還計劃推出經過指令微調的Sumi版本,讓它能更好地回應具體問題。至於那個"反覆修改卻沒有變聰明"的現象,是不是意味著均勻擴散的自我糾錯需要全新的訓練方式來激活,還是說這種能力本質上需要在訓練階段就明確教會模型"如何識別並修正錯誤"——這些問題留給了整個研究社區去繼續探索。
對這項研究感興趣的讀者,可以通過arXiv編號2606.19005查閱完整論文,或訪問東北大學NLP實驗室的項目主頁和HuggingFace上的模型發布頁面獲取模型文件和代碼。
---
Q&A
Q1:均勻擴散語言模型和普通的ChatGPT那類AI有什麼本質區別?
A:普通ChatGPT類AI(自回歸模型)寫文字的方式是從左到右一個詞一個詞地生成,每個詞一旦輸出就不能修改。均勻擴散語言模型則像在畫布上反覆塗改的畫家,先用隨機詞填滿所有位置,然後一遍遍地把不滿意的地方換掉,任何位置在任何時刻都可以被修改,理論上支持自我糾錯。
Q2:Sumi在測試中為什麼在常識題上表現這麼差?
A:Sumi的訓練數據經過了嚴格的"教育價值"篩選,大量充滿日常生活常識的普通網頁文本因為教育價值得分低而被剔除。這導致Sumi積累了很多學科知識,卻缺乏日常生活的常識積累,就像一個只讀教科書的學生,知識紮實但生活經驗不足。
Q3:Sumi給了額外修改時間卻沒有變得更準確,這是為什麼?
A:研究團隊發現,額外的修改時間裡,模型確實在不停改動詞語,但大多數改動都是把一個詞改成另一個詞再改回來,屬於來回擺動而非定向優化。這說明模型雖然有能力改,但並不知道"改成什麼才算更好",缺乏識別和定向修正錯誤的機制。






