美團開源1.6萬億參數LongCat-2.0大語言模型，聲稱使用國產晶片訓練

總部位於北京的美團股份有限公司近日正式發布了新一代開源大語言模型LongCat-2.0。美團表示，這一擁有1.6萬億參數的大模型完全基於國產晶片及國內算力集群進行訓練。

贊助商廣告

對於這一超大規模模型而言，開源發布本身並不是最大的看點，其背後全程採用國產硬體的訓練路徑才更值得關注。

美團最初給人的印象可能並不像一家AI模型研發公司。它通常被視為中國版DoorDash，最初以國內領先的外賣平台起家，後來逐漸演變為一個涵蓋旅行休閒預訂、本地商戶發現與評價以及網約車等多種服務的綜合平台。早在2023年，美團便以2.81億美元收購初創公司光年之外，正式入局AI模型研發，但直到2025年才對外宣布內部自研AI大模型的計劃。

從技術架構來看，LongCat-2.0採用了與Mistral AI的Mixtral和DeepSeek 美團開源16萬億參數LongCat20大語言模型聲稱使用國產晶片訓練相似的稀疏混合專家（MoE）架構。該模型通過內部路由機制，針對每個Token動態選擇特定的"專家AI"，而非激活整個模型。這種設計在模型部署和推理階段具有顯著的效率優勢，使MoE模型能夠在更低成本的硬體上擴展運行，而無需在每次Token計算時調用全部模型參數。

LongCat-2.0擁有1.6萬億參數，體量龐大，同時支持100萬Token的超長上下文窗口，允許用戶一次性輸入海量數據。相較之下，DeepSeek-R1-0528和OpenAI的開源模型GPT-OSS等同類MoE模型更注重較小的激活規模，並採用業界標準的12.8萬Token上下文窗口；而LongCat-2.0則以超大參數量和超長上下文處理能力為核心差異化方向。

美團發布的基準測試結果顯示，LongCat-2.0的表現可與谷歌Gemini、OpenAI GPT-5.5以及Anthropic Claude Opus等頂級閉源商業模型相媲美。美團表示，LongCat-2.0被定位為AI智能體和編程輔助工具的"大腦"核心，適配Claude Code、OpenClaw和Hermes等平台。該模型在代碼理解、倉庫級別代碼編輯、自動化任務執行及智能體工作流等方面表現突出，旨在為開發者提供一套穩定高效的長期目標編排與任務管理工具。

贊助商廣告

國產晶片路線的戰略意義

美團表示，LongCat-2.0的訓練和優化均基於國產AI專用集成電路（ASIC）集群完成。這一選擇有其現實背景——中國長期面臨英偉達美團開源16萬億參數LongCat20大語言模型聲稱使用國產晶片訓練頂級CUDA架構GPU及相關晶片組的出口管制壓力。

儘管英偉達晶片目前仍可向中國出口，但出口管制帶來的不確定性已促使中國積極尋求替代方案。據全球股票研究機構Bernstein在2025年發布的報告估計，英偉達在中國AI晶片市場約占40%的份額，與華為的市場份額大致相當，並預測英偉達今年市場份額將下滑約8%，為華為提供進一步擴張的空間。

LongCat-2.0基於國產晶片訓練，意味著其在國內可用晶片上將具備可靠的運行表現和良好的性能發揮，同時有效降低對英偉達專有軟體生態及其市場主導地位的依賴。美團表示，該模型在ASIC"超級計算節點"上完成訓練，暗示其部署將深度整合於同一國產生態體系，而非依賴第三方硬體。

憑藉1.6萬億的參數規模，LongCat-2.0短期內不會出現在消費級硬體上，對大多數企業的本地化部署而言同樣難以實現。在如此體量下，該模型將運行於數據中心或雲環境中，藉助模型並行技術分布在高密度推理集群上進行統一管理。若美團所描述的架構屬實，其核心推理能力具備一定的硬體遷移性，但針對國產晶片的性能優化優勢將持續保留。

Q&A

Q1：LongCat-2.0大語言模型有什麼技術特點？

A：LongCat-2.0是美團推出的開源大語言模型，擁有1.6萬億參數和100萬Token的超長上下文窗口。它採用稀疏混合專家（MoE）架構，通過內部路由機制按需激活"專家AI"，在降低硬體成本的同時保持高效推理能力，性能對標谷歌Gemini、OpenAI GPT-5.5等頂級閉源商業模型。

Q2：美團LongCat-2.0為什麼要使用國產晶片訓練？

A：由於中國長期面臨英偉達高端GPU出口管制的不確定性，美團選擇在國產ASIC集群上完成LongCat-2.0的訓練與優化。這一策略使模型在國內可用晶片上具備更可靠的運行表現，同時減少對英偉達專有軟體生態的依賴，與華為等國產晶片廠商形成更緊密的生態協同。

贊助商廣告

Q3：LongCat-2.0適合哪些應用場景？

A：LongCat-2.0主要定位為AI智能體和編程輔助工具的核心"大腦"，適配Claude Code、OpenClaw和Hermes等平台。它在代碼理解、倉庫級代碼編輯、自動化任務執行及智能體工作流方面表現突出，適合需要長期目標編排和複雜任務管理的開發者使用，主要部署於數據中心或雲環境中。