馬斯克又下場按贊中國 AI 了。
昨天深夜,阿里通義千問團隊在 X 平台正式發布了 Qwen3.5 小模型系列,覆蓋 0.8B、2B、4B 和 9B 四個參數規格。甫一發布,便在海外科技圈引發強烈反響。
🚀 Introducing the Qwen 3.5 Small Model Series Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B ✨ More intelligence, less compute. These small models are built on the same Qwen3.5 foundation — native multimodal, improved architecture, scaled RL: • 0.8B / 2B → tiny, fast, great for edge device • 4B → a surprisingly strong multimodal base for lightweight agents • 9B → compact, but already closing the gap with much larger models And yes — we’re also releasing the Base models as well. We hope this better supports research, experimentation, and real-world industrial innovation. Hugging Face: https://huggingface.co/collections/Qwen/qwen35 ModelScope: https://modelscope.cn/collections/Qwen/Qwen35
馬斯克也在該推文下評論稱:「Impressive intelligence density」(令人印象深刻的智能密度)。這股熱度的背後,APPSO 也好奇,為什麼這幾款小模型能夠激起如此大的波瀾?
Qwen 官方在 X 平台發帖宣布這批模型上線,言簡意賅地將其定位為「更強的智能,更少的算力」。
官方強調,四款小模型共享同一套 Qwen3.5 基礎架構,原生支持多模態,並經過架構層面的專項改良與大規模強化學習訓練。
Qwen 團隊表示,希望這批模型能更好地支撐學術研究、實驗探索與真實工業場景的創新落地,同時也宣布同步發布對應的 Base 基礎模型。

Qwen3.5 系列模型核心採用「門控增量網路與稀疏混合專家」相結合的混合注意力架構,注意力層以 3:1 的比例排列,即 3 個 Gated DeltaNet 層搭配 1 個 Gated Attention 層。
這一設計的關鍵在於,模型在前向傳播時只激活對當前任務必要的網路部分,而非全量計算,從而在極低延遲與算力開銷下實現高吞吐推理。

多模態這塊也有講究。Qwen3.5 採用「早期融合」訓練機制,文本、圖像、影片在底層就一起處理,不是在文本模型上事後掛個視覺編碼器。
這個差異直接決定了小參數模型在視覺問答、OCR 文檔理解等任務上,能打出遠超同量級傳統輕量多模態模型的表現。
全系列同時支持長達 26 萬 Token 的上下文窗口,並引入「思考」與「非思考」雙模式,可在深度邏輯推理與快速響應之間靈活切換。
0.8B 與 2B 模型均為 24 層結構,隱藏維度分別為 1024 和 2048,專為物聯網設備等極端邊緣場景設計,也可直接在主流手機上原生運行。

儘管 0.8B 在語言基準 MMLU-Pro 上得分 29.7,表現平平,但受益於早期融合架構,其在視覺任務 MathVista 上達到 62.2,OCRBench 達到 74.5,展現出與參數量不相稱的視覺理解能力。2B 模型的 OCRBench 進一步提升至 84.5,表現亮眼。

4B 模型為 32 層結構,隱藏維度 2560,能夠流暢運行於消費級移動硬體。官方將其定性為「出乎意料強大的多模態輕量智能體底座」。
9B 則再進一步,同為 32 層結構,但隱藏維度提升至 4096,FFN 維度擴展至 12288,可以在 Mac 上流暢運行。
其 MMLU-Pro 得分達到 82.5,不僅超越了參數量為其三倍的上一代 Qwen3-30B,在視覺任務上更以兩位數優勢超過 GPT-5-Nano 與 Gemini 2.5 Flash Lite。

MMMU-Pro 得分高達 70.1,MathVision 達到 78.9,證明了其在複雜物理和數學圖像解析上的實力。官方將 9B 的目標明確為「縮小與前沿大模型的能力差距」,從基準數據來看,這一目標已初步實現。
海外開發者對這批模型的實際表現給出了高度正面的評價。
有開發者直言,稱其為「小模型」不過是低估了它,就好比把颶風叫做微風。
many organisations that can’t afford B200s are able to run smarter and smarter models and that’s not to be underestimated meaning with a $30k hardware setup you’re now able to run models with the intelligence of a $200k GPU setup from a year ago. thats big
另有觀點認為,真正值得關注的指標是每十億參數所能釋放的智能密度。如今只需 3 萬美元的硬體,就能跑出一年前需要 20 萬美元 GPU 配置才有的推理能力。
已有開發者演示了在 iPhone 17 Pro 上通過針對 Apple Silicon 優化的 MLX 框架本地運行 Qwen3.5-2B 6-bit 版本,模型可實時完成視覺理解與問答任務。
The new Qwen 3.5 by @Alibaba_Qwen running on-device on iPhone 17 Pro. Qwen 3.5 beats models 4 times its size, has strong visual understanding, and can toggle reasoning on or off. The 2B 6-bit model here is running with MLX optimized for Apple Silicon.
網友在本地 Vision Agents 應用中實時識別手寫內容並即時回答問題,並感嘆這在幾個月前根本無法實現。
xxxxxxxxxThis is @GoogleDeepMind Gemini 3.1 Flash-Lite responding in real time in a Vision Agents app. It's able to handle a lot of different video understanding questions much more quickly than the previous gen... and this is on release day, when everyone's hitting the API! 😆xxxxxxxxx
還有用戶這樣總結道,9B 模型性能與規模達 120B 的 ChatGPT 開源模型相當,體積卻只有其十三分之一,且完全免費,可在任何筆記本電腦乃至手機上運行。
知名開源推理工具 Ollama 也迅速跟進,宣布支持 Qwen3.5 全系四個尺寸,並配套提供原生工具調用、思維鏈推理與多模態功能,只需一行命令即可拉取運行。

跑分是起點,AI+硬體才是終局
在談及阿里為何堅持追求開源與發布全尺寸模型時,千問技術負責人林俊暘曾在清華 AGI-Next 峰會上轉述其師弟的觀點,給出了一個樸素的答案。
他表示,小模型起源於內部實驗需求,是為了讓資源有限的學生也能參與研究。他回憶道,7B 規模的模型已讓很多碩士博士生無力承擔實驗成本,若將 1.8B 的模型開源出去,很多同學就有機會順利畢業,「這是很好的初心」。

平心而論,Qwen 系列一路開源走下來,客觀上確實讓很多人用上了本來用不起的 AI 模型。而對於普通用戶而言,想親身體驗這批最新的小模型其實也不複雜。
目前,你可以通過 PocketPal AI 這款手機應用,直接下載並在本地運行 Qwen3.5 系列模型,無需任何 API,模型推理全程在設備端完成。如果不習慣英文界面,可以在設置 (Setting) 里找到語言 (Language) 選項,切換成中文。

(具體教學可參考 APPSO 此前的文章:《我在 iPhone 17 Pro Max 上跑 AI 模型,體驗了一把十年前「越獄」的快樂》)。
不過有一個細節,比選哪個模型更重要:選對量化版本。
BF16 是接近原始精度的半精度權重,回答穩定性最好,推理細節與對齊效果最接近原版,但 2B 的 BF16 權重文件就要 4.45GB,運行時還需額外占用記憶體用於 KV cache 和運行緩衝區,極易觸發系統殺後台或直接加載失敗。
因此手機端的選擇邏輯應該是:可用記憶體長期能剩 6GB 以上,優先選 IQ4_NL;可用記憶體常在 3GB 至 5GB 之間,優先選 Q3_K_M;可用記憶體更低,才考慮 Q3_K_S 等等。

說到底,一個無法獨立運行的模型,不過是一堆權重文件。真正有價值的,是與正確硬體深度綁定、以正確量化格式部署的小模型,那才能成為真正的產品。
智慧型手機時代本質上是「單向輸入」的範式,而即將到來的 AI 硬體浪潮,是要以更碎片化、更有粘性的方式接管人類的記憶與生活。小模型,正是給這些硬體注入靈魂的關鍵。
阿里已將 Qwen 小模型嵌入 AI 眼鏡等可穿戴硬體,實現毫秒級端側視覺解析。在真實物理場景中,向眼鏡詢問前方障礙物時哪怕延遲三秒也會失去全部意義,而這恰恰是雲端大模型無法克服的物理瓶頸。

簡言之,遇到需要深度推理的複雜問題,再作為路由器把請求交給雲端的大模型處理。端雲協同架構,才是接下來幾年計算平台的基本形態。
包括在 iPhone 的「視覺智能」中,當用戶把攝影機對準餐廳或商品,端側實時完成場景解析、文本提取,甚至直接喚起購買流程,全程在設備上完成。

此外有媒體報道稱,蘋果下一步還在開發帶攝影機的 AirPods 和智能眼鏡,這些設備會變成用戶的「第二雙眼睛和耳朵」。
工業方面,IoT 設備、工廠傳感器、醫療監測終端,這些場景里數據隱私更敏感,本地推理同樣是硬需求。而端側小模型實時處理第一視角多模態數據,則是繞不過去的基礎設施。
就像今天沒有人會專門寫一篇文章夸手機能打電話一樣。AI 眼鏡、AI 手錶、AI 耳機等可穿戴設備,現在聽起來還有點新鮮,但在未來,它們也會變得稀鬆平常。
而讓這件事成為可能的,恰恰是一批又一批看似沒什麼存在感的小模型。它們很小,但如無意外,它們將無處不在。
附上 HuggingFace 地址:






