過去「春節檔」屬於電影行業的黃金時間窗口,如今大模型廠商也開闢了屬於自己的「春節檔」,成為技術與產品集中亮相的「發布季」。
先把時間撥回到過去幾天,看看都有哪些發布內容。
2月10日,阿里發布新一代圖像生成及編輯模型Qwen-Image-2.0,支持1K token的超長文字輸入和2K高解析度,是千問大模型的圖像生成模型底座。
2月11日,智譜發布新一代旗艦模型GLM-5,被官方定義為「Agentic Engineering時代最好的模型」。其核心突破在於編程能力與智能體任務執行能力,在真實編程場景中的體驗已逼近Claude Opus 4.5,尤其擅長複雜系統工程和長程任務。
2月12日,字節跳動上線新一代AI影片生成模型Seedance 2.0,並接入旗下生成式AI創作平台「即夢」以及豆包App、電腦端和網頁版。該影片生成模型支持原聲音畫同步、多鏡頭長敘事和多模態可控生成。連伊隆·馬斯克都在社交平台X上轉發評論Seedance 2.0的相關推文,說道:發展得太快了!
同日,MiniMax正式上線最新旗艦編程模型MiniMax M2.5,定位為「為Agent場景原生設計的生產級模型」,直接對標Claude Opus 4.6。其亮點在於「小而美」,僅10B激活參數即可支持100 TPS的高吞吐量,在推理能效上優勢顯著。
2月14日,字節跳動推出豆包大模型2.0(Doubao-Seed-2.0)系列。豆包2.0針對大規模生產環境的使用需求進行系統性優化,旨在更好地完成真實世界的複雜任務。
目前,豆包2.0 Pro已在豆包App、電腦客戶端和網頁版上線,用戶選擇「專家」模式即可對話體驗。火山引擎也已上線豆包2.0系列模型API服務。所謂專家模式,核心是面向具備專業知識的用戶群體,減少基礎引導與冗餘交互,提供更靈活的操作空間,適配專業分析、參數調試與複雜任務場景。
該圖片疑似AI生成
模型能力開始逼近真實任務門檻
模型能力競爭仍然離不開基礎指標,從公開測試成績看,豆包2.0旗艦版本Pro在數學和推理能力方面取得了較高水平。在IMO、CMO數學競賽以及ICPC編程競賽相關評測中達到金牌成績,並在Putnam基準測試中超過同類模型。
官方數據顯示,豆包2.0在長尾知識領域進行了擴展,在SuperGPQA等公開測試集中的科學領域成績與主流頂級模型處於同一水平,在跨學科知識應用排名中也處於前列。
多模態能力也是此次升級的重要部分,視覺推理、空間感知以及長上下文理解能力均有所提升,可以處理圖表、複雜文檔以及影片內容。這類能力在教育、辦公和內容生產場景中都有著較高的需求。
模型對動態環境的理解能力也有所增強,包括時間序列分析與運動感知。官方展示的應用場景涵蓋實時影片分析、環境感知以及交互輔助,例如健身指導、穿搭建議和陪伴場景。
測試數據顯示,豆包2.0 Pro在指令遵循、工具調用以及Search Agent評測中達到較高水平,在HLE-Text測試中取得54.2分。這類能力關係到模型在多步驟任務中的執行表現。
大模型能力正在出現一個明顯轉折,早期競爭集中在知識覆蓋與語言流暢度,如今更多廠商開始圍繞任務完成率、穩定性與執行成本優化。
成本下降正在重塑企業採用曲線
過去兩年,大模型價格持續下降已成為行業普遍現象,大家也都非常關心新模型的價格。
豆包2.0 Pro在32k輸入範圍內,輸入價格為3.2元/百萬tokens,輸出價格為16元/百萬tokens。Lite版本價格更低,百萬tokens輸入價格為0.6元,同時綜合性能已經超過兩個月前發布的上一代主力模型豆包1.8。
多家廠商公開定價顯示,相比早期階段,部分模型調用成本下降數倍,一些場景的推理費用降至早期水平的三分之一甚至更低。價格變化直接影響企業採用意願,也推動應用規模擴大。
IDC預測,中國生成式AI市場規模預計將在2027年達到約140億美元,2023年至2027年的年複合增長率接近70%。企業級應用被普遍認為將占據主要商業收入來源,包括智能客服、營銷自動化、辦公協同以及行業解決方案等方向。
目前,模型更新節奏明顯加快,能力測試成績仍然重要,但商業收入、客戶數量以及成本控制能力越來越受到重視。能夠證明商業化路徑的公司,更容易獲得長期支持。
春節檔發布,看似只是時間節點的選擇,背後卻展現了模型競爭已進入第二階段,圍繞真實世界生產力。
豆包2.0則押在了執行力上。






