年初DeepSeek R1開源,以550萬美元的後訓練成本震驚矽谷。
幾天前,Minimax-M1模型開源,後訓練成本約53.5萬美元,還不到R1模型的十分之一; M1模型支持的上下文長度達100萬token,是R1的8倍;生成10萬token長度的內容,M1所需的計算量也只要R1的四分之一。
生成長度VS計算量
2025年6月16日,MiniMax團隊基於MiniMax-Text-01模型訓練出Minimax-M1模型,M1模型總參數4560億,激活參數459億。MiniMax團隊將M1模型開源在Hugging Face和魔搭社區等平台,在ArXiv平台發表論文公布技術細節。
當你打開手機跟AI聊天時,有沒有想過一個問題:為什麼AI有時候回答很快,有時候卻要思考很久?特別是當你問一些複雜問題時,AI需要進行深度思考,就像人類面對數學難題時需要在草稿紙上反覆推演一樣。但這裡有個技術難題:讓AI思考得越深入,計算成本就越高,就像開車時速度越快耗油越多。
MiniMax團隊最近發布的M1模型改變了這個局面。他們創造了世界上第一個開源的大規模混合注意力推理模型,能夠讓AI在進行長達8萬個token(相當於約6萬個中文字符)的深度思考時,仍然保持極高的運行效率。而且M1模型支持處理100萬個token的超長上下文,相當於能夠一次性閱讀和理解一本中等厚度的小說。
這項研究的核心突破在於閃電注意力(Flash Attention)機制。傳統的AI模型就像一個需要同時關注所有資訊的人,資訊越多,大腦負擔越重。而閃電注意力就像是給AI配備了一個智能的注意力管理器,能夠高效地在大量資訊中找到關鍵點,避免不必要的計算浪費。
研究團隊不僅在技術架構上實現了突破,還開發了一種名為CISPO的全新訓練算法,讓AI的學習過程變得更加高效。在實際測試中,M1模型在數學競賽、編程挑戰、軟體工程、長文本理解等多個領域都表現出色,特別是在需要長時間深度思考的複雜任務上,其表現甚至超越了一些閉源的商業模型。
技術革命的核心:從"全時關注"到"智能聚焦"
理解M1模型的突破性,首先要明白傳統AI模型面臨的根本挑戰。當AI處理資訊時,就像一個人試圖同時聽懂房間裡所有人的對話一樣。隨著對話人數增加,這個人需要投入的注意力呈指數增長,最終會因為負擔過重而無法正常工作。
傳統的Transformer架構就存在這樣的問題。當AI需要處理的文本越來越長時,其計算複雜度會呈平方增長。如果處理1000個字符需要1單位的計算量,那麼處理2000個字符就需要4單位,處理4000個字符則需要16單位。這種增長速度讓長文本處理變得極其昂貴和緩慢。
MiniMax團隊的解決方案是創造性地結合了兩種注意力機制:傳統的softmax注意力和革命性的閃電注意力。這就像是為AI配備了兩套思維系統:一套用於精確分析,另一套用於快速掃描。在大部分情況下,AI使用高效的閃電注意力快速處理資訊,只有在遇到特別重要的內容時,才啟用精確但耗能的傳統注意力進行深度分析。
具體來說,M1模型採用了7:1的混合比例:每7個閃電注意力層後面跟隨1個傳統注意力層。這種設計讓模型在保持理解能力的同時,大幅降低了計算成本。研究結果顯示,當生成10萬個token的長文本時,M1模型的計算量僅為傳統模型的25%,這意味著同樣的硬體可以支持4倍長度的思考過程。
閃電注意力的工作原理可以用圖書館的例子來理解。傳統注意力就像是要求圖書管理員記住每本書與其他所有書之間的關係,這在書籍較少時尚可管理,但當圖書館有數萬本書時就變得不可能。而閃電注意力則像是建立了一個智能索引系統,能夠快速定位相關書籍,而不需要逐一比較每本書。
這種混合架構的另一個巧妙之處在於其漸進式的處理方式。就像閱讀一篇長文章時,我們會先快速瀏覽整體結構,然後對重點段落進行仔細閱讀。M1模型的閃電注意力層負責快速建立全局理解,而傳統注意力層則專注於精細化的語義分析。
訓練革新:CISPO算法讓AI學習更智能
除了架構創新,MiniMax團隊還在AI的訓練方法上實現了重要突破。傳統的強化學習訓練就像是教導一個學生:當學生回答正確時給予獎勵,回答錯誤時進行懲罰。但這種方法有個問題:當學生說出一些不常見但可能有價值的觀點時,系統往往會因為這些觀點的不尋常而將其忽略。
CISPO算法的創新在於改變了這種訓練邏輯。傳統方法會剪掉那些看起來異常的學習信號,就像園丁修剪掉所有不規整的枝葉。而CISPO則更像是一個智慧的教師,認識到一些看似奇怪的想法可能包含有價值的洞察,因此選擇保留這些信號,但會對其影響力進行適當調節。
這種方法在實際訓練中展現出顯著優勢。研究團隊在Qwen2.5-32B模型上進行的對比實驗顯示,CISPO算法的訓練效率比現有的DAPO算法提高了一倍,這意味著達到同樣的性能水平只需要一半的訓練時間。
更重要的是,CISPO算法特別適合訓練那些需要進行長時間推理的任務。在傳統訓練中,AI往往會學會尋找快速但淺層的解決方案,就像學生為了節省時間而選擇最簡單的解題方法。而CISPO鼓勵AI進行更深入的思考,即使這意味著需要更多的計算步驟。
這種訓練創新的影響是深遠的。在數學競賽測試中,使用CISPO訓練的模型不僅準確率更高,其思考過程也更加深入和系統化。模型學會了像人類數學家一樣,先理解問題的本質,然後制定解題策略,最後逐步執行並驗證結果。
架構挑戰的巧妙解決
在開發M1模型的過程中,MiniMax團隊遇到了許多前所未有的技術挑戰,這些挑戰的解決方案本身就構成了重要的技術創新。
首先是精度匹配問題。當AI在訓練模式和推理模式之間切換時,就像一個人在不同環境下使用不同的思維方式。研究團隊發現,混合注意力架構在這種切換過程中會出現細微但關鍵的精度差異,導致AI在實際使用時的表現與訓練時不一致。
這個問題的解決方案看似簡單,但需要深度的技術洞察。團隊通過逐層分析發現,問題的根源在於模型最後輸出層的計算精度。他們將這一層的計算精度從16位提升到32位,成功解決了訓練和推理之間的不一致問題。這種精度提升將訓練和推理概率的相關性從0.987提升到0.997,看似微小的改進實際上對模型性能產生了決定性影響。
另一個重要挑戰是訓練過程中的不穩定性。當AI生成越來越長的文本時,就像一個人進行長時間的思考,容易出現思維混亂或重複。M1模型在擴展到更長的生成長度時,經常會陷入重複循環,生成大量重複或無意義的內容。
研究團隊開發了一套智能的早期終止機制來解決這個問題。系統會監控AI生成的每個詞語的概率,當連續3000個詞語的概率都超過99%時(這通常意味著AI陷入了重複模式),系統會自動終止生成過程。這就像給AI配備了一個自我監控系統,能夠識別並終止無效的思考循環。
數據策略:多樣化環境中的全面訓練
M1模型的卓越性能不僅來自先進的架構和算法,還得益於其精心設計的訓練數據策略。研究團隊構建了一個包含多種類型任務的綜合訓練環境,就像為AI創造了一個豐富多彩的學習世界。
在數學推理方面,團隊收集了數十萬道來自各種數學競賽的高質量題目。這些題目涵蓋了從基礎代數到高等數學的各個難度級別,每道題目都配有標準答案和詳細解題步驟。更重要的是,團隊還使用了名為SynLogic的數據合成框架,自動生成了涵蓋41種不同邏輯推理任務的訓練數據,包括密碼破解、數獨遊戲等需要複雜邏輯思維的題目。
在編程能力培養方面,研究團隊從各大在線編程平台收集了大量真實的編程挑戰題目。對於那些缺少測試用例的問題,他們使用AI自動生成了全面的測試套件,確保每個編程問題都有完整的驗證標準。這種做法讓AI能夠學習真正實用的編程技能,而不僅僅是記憶代碼模式。
最具創新性的是軟體工程環境的構建。團隊基於SWE-bench基準測試,創建了真實的軟體開發沙盒環境。在這個環境中,AI需要理解GitHub上的真實軟體問題報告,定位代碼中的bug,提出修複方案,並通過實際的測試用例驗證修復效果。這種訓練方式讓AI獲得了處理現實世界軟體工程問題的能力。
對於無法通過規則驗證的通用任務,團隊開發了生成式獎勵模型(GenRM)來提供反饋。這個模型就像一個有經驗的老師,能夠評估AI回答的質量。特別重要的是,團隊解決了獎勵模型偏向長文本的問題。傳統的獎勵模型往往認為更長的回答就是更好的回答,但這顯然不符合實際情況。研究團隊通過在線監控和動態調整,確保獎勵模型能夠公正地評估回答質量,而不是簡單地偏好冗長的文本。
性能突破:在關鍵任務上的卓越表現
M1模型在各種基準測試中的表現充分驗證了其技術創新的價值。在AIME數學競賽中,M1-80k模型取得了86.0%的準確率,在開源模型中排名第二,僅次於最新的DeepSeek-R1-0528模型。這個成績特別令人印象深刻,因為AIME是面向高中生的高難度數學競賽,即使是數學天才也很難在這種競賽中取得如此高的準確率。
在編程能力測試方面,M1模型在LiveCodeBench上達到了65.0%的通過率,在FullStackBench上達到了68.3%的通過率。這些基準測試包含了從基礎編程到複雜系統設計的各種真實編程挑戰,M1模型的表現表明它具備了接近專業程序員的編程能力。
最引人注目的是M1模型在軟體工程任務上的突破性表現。在SWE-bench Verified測試中,M1-80k模型達到了56.0%的成功率,這意味著它能夠成功解決超過一半的真實GitHub軟體問題。考慮到這些問題來自真實的開源項目,涉及複雜的代碼庫理解和精確的bug修復,這個成績展現了AI在實際軟體開發中的巨大潛力。
在長文本理解方面,M1模型的優勢更加明顯。在OpenAI的MRCR基準測試中,當處理128K長度的文本時,M1-40k模型達到了76.1%的準確率,甚至超越了OpenAI的o3模型。這種能力對於處理長文檔、法律合同、技術規範等現實應用場景具有重要意義。
特別值得關注的是M1模型在工具使用方面的表現。在TAU-bench測試中,這個模型需要在動態對話中正確使用API工具,同時遵循特定的政策指導原則。M1-40k模型在航空公司場景中達到了60.0%的成功率,在零售場景中達到了67.8%的成功率,這些成績甚至超越了Gemini 2.5 Pro等商業模型。
訓練效率的驚人突破
M1模型不僅在性能上表現卓越,其訓練效率更是實現了令人震驚的突破。傳統的大模型訓練往往需要數千張GPU卡和數月時間,成本動輒數百萬甚至上千萬美元。而MiniMax團隊僅用512張H800 GPU,在3周時間內就完成了M1模型的完整強化學習訓練,總成本僅約53.47萬美元。
這種效率提升主要來自三個方面的創新。閃電注意力架構的本質優勢使得訓練過程中的計算量大幅減少,就像用高效的交通工具替代了步行,自然能夠更快到達目的地。CISPO算法的優化讓訓練過程更加穩定和高效,避免了許多無效的訓練步驟。精心設計的訓練策略則確保了每一分計算資源都得到充分利用。
更令人印象深刻的是模型擴展過程的效率。研究團隊首先訓練了一個支持4萬token生成長度的模型(M1-40k),然後通過漸進式擴展策略,將生成長度逐步擴展到8萬token(M1-80k)。這種方法就像建造摩天大樓時先建好基礎結構,然後逐層加高,比從零開始建造80層高樓要高效得多。
在擴展過程中,團隊採用了階段性的長度增加策略:從4萬token開始,逐步擴展到4.8萬、5.6萬、6.4萬、7.2萬,最終達到8萬token。每個階段的轉換都基於嚴格的指標監控,包括生成序列的困惑度收斂和輸出長度的第99百分位數接近當前上下文窗口限制。這種精確控制確保了每個擴展步驟都是穩定和有效的。
至頂AI實驗室洞見
應用層面上,M1模型支持100萬token的長上下文處理能力,意味著AI可以一次性理解和處理相當於一本中等長度小說的文本量。這種能力在法律文檔分析、醫學病歷審查、學術論文研究等領域具有革命性意義。
在軟體開發領域,M1模型展現出的56%的真實GitHub問題解決成功率,預示著AI輔助編程即將進入新階段。程序員可以將複雜的bug報告交給AI,讓它自動定位問題、分析原因並提供修複方案。
在內容創作方面,M1模型的長文本生成能力為寫作者提供了強大的工具。無論是小說創作、技術文檔編寫還是學術論文撰寫,AI都能夠保持長時間的邏輯一致性和文本質量。
技術層面上,通過創新的混合注意力架構和高效的訓練算法,M1模型在保持卓越性能的同時顯著降低了計算成本,使得長時間深度推理成為可能。
M1模型證明了AI可以在效率和能力之間找到完美的平衡點。Flash Attention和CISPO算法的成功應用為未來的AI架構設計提供了新的思路。
MiniMax加入DeepSeek和Qwen模型的開源陣營中,為中國形成全球AI影響力再添強勁動力。有外國網友驚呼:開源模型排名靠前的開源模型都是中國模型!
論文地址:https://arxiv.org/abs/2506.13585
模型地址:https://huggingface.co/MiniMaxAI/MiniMax-M1-80k
END
本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
Q&A
Q1:MiniMax-M1模型的閃電注意力Flash Attention是什麼?有什麼特別之處?
A:閃電注意力Flash Attention是一種新型的注意力機制,就像給AI配備了智能的注意力管理器。傳統AI需要同時關注所有資訊,資訊越多負擔越重,而閃電注意力能夠高效地在大量資訊中快速定位關鍵點,避免不必要的計算浪費。這讓AI在處理長文本時效率大幅提升,生成10萬token時只需傳統模型25%的計算量。
Q2:M1模型會不會取代人類程序員或數學家?
A:目前不會完全取代,但會成為強有力的輔助工具。M1模型在GitHub真實問題上有56%的解決成功率,在數學競賽中達到86%的準確率,這表明它已具備接近專業水平的能力。不過,它更像是一個高效的助手,能夠處理重複性工作、提供解題思路,讓人類專業人士專注於更具創造性的任務。
Q3:如何使用MiniMax-M1模型?
A:由於M1模型完全開源,技術人員可以通過GitHub或Hugging Face下載使用。模型已支持vLLM和Transformers框架,MiniMax還提供了商業API服務(minimax.io)。不過,運行完整模型需要較強的計算資源,普通用戶更可能通過基於該模型開發的應用服務來體驗其能力。