
自從 GPT-5 發布後,DeepSeek 創始人梁文鋒就成了 AI 圈最「忙」的人。
網友和媒體們隔三岔五就要催更一波,不是「壓力給到梁文鋒」,就是「全網都在等梁文鋒回應」。儘管沒有等到 DeepSeek R2,但 DeepSeek 今天還是正式上線並開源了新模型 DeepSeek-V3.1-Base。
相比奧特曼今天凌晨接受採訪時還在畫著 GPT-6 的大餅,DeepSeek 新模型的到來顯得相當佛系,連版本號都像是個「小修小補」,但實際體驗下來,這次更新還是給了我不少驚喜。

DeepSeek-V3.1-Base 擁有 6850 億參數,支持 BF16、F8_E4M3、F32 三種張量類型,以 Safetensors 格式發布,在推理效率上做了不少優化,線上模型版本的上下文窗口也拓展至 128k。
所以我們二話不說,直接官網開測。
附上體驗地址:
https://chat.deepseek.com/
為了測試 V3.1 的長文本處理水平,我找來了《三體》全文,刪減到 10 萬字左右,然後在文中偷偷塞了一句八竿子打不著的話「我覺得煙鎖池塘柳的下聯應該是『深圳鐵板燒』」,看看它能否準確檢索。

沒有出乎太多意外,DeepSeek V3.1 先是提示文檔超出限制,只讀取了前 92% 的內容,但依然成功找到了這句話。更有意思的是,它還貼心地提供了文學角度的經典下聯推薦:「焰鎔海壩楓」。
網友已經已經搶先測試它在編程基準測試 Aider Polyglot 的得分:71.6%,不僅在開源模型中表現最佳,甚至擊敗了 Claude 4 Opus。
實測下來,我們發現V3.1在編程這塊確實有兩把刷子。
我們用經典的六邊形小球編程題做了測試:「編寫一個 p5.js 程序,演示一個球在旋轉的六邊形內彈跳的過程。球應該受到重力和摩擦力的影響,並且必須逼真地從旋轉的牆壁上彈起。」

V3.1的表現相當給力,生成的代碼不光搞定了基礎碰撞檢測,還自動補全了轉速、重力之類的細節參數。物理特性逼真到小球會在底部略微減速。
接著我們加大難度,讓它用 Three.js 製作交互式 3D 粒子星系。基礎框架搭得挺穩,三層設計(內球體、中間圓環、外球體)也算完整,但UI審美嘛……怎麼說呢,有種神鬼二象性的感覺,配色方案略顯花里胡哨。

繼續挑戰更複雜的任務。我們讓它造個沉浸式3D宇宙,要有旋轉物體、變形效果、發光弧線,還得加上時間切換、主題轉換的交互按鈕,點擊控制也確實能觸發不同特效。

最後一關,讓它用 Three.js 搞個交互式 3D 網路可視化,要求包含用戶觸發的能量脈衝動畫,外加主題切換和密度控制功能。整體下來,表現還是過得去的。

「有一牧場,已知養牛 27 頭,6 天把草吃盡;養牛 23 頭,9 天把草吃盡。如果養牛 21 頭,那麼幾天能把牧場上的草吃盡呢?並且牧場上的草是不斷生長的。」
雖然 DeepSeek V3.1 沒有採用蘇格拉底式的啟發教學,但它的解答邏輯清晰、步驟完整。每一步推導都有理有據,最終給出了準確答案。這種紮實的數學功底,著實令人印象深刻。

面對「兩把武器對比,1~5 攻擊 VS 2~4 攻擊,哪把更厲害?」這樣的問題,一般的回答可能止步於平均傷害計算。但 DeepSeek V3.1 思考得更為周全,引入了傷害穩定性的概念,運用方差進行深入分析。
該圖片疑似AI生成

當問及「冰島有蚊子嗎?」這樣的小眾地理問題時,在未開啟搜索功能的前提下,DeepSeek V3.1 的回答質量明顯超越了 GPT-5。這不僅體現了其廣博的知識儲備,更顯示了精準的資訊提取和整合能力。
最近基孔肯雅熱疫情流行,到處滅蚊蚊蚊蚊蚊蚊蚊蚊,那麼我很好奇,冰島有蚊子嗎?注意,我沒開搜索功能,就回答的質量來看,DeepSeek V3.1 的回答明顯要比 GPT-5 勝上一籌。
我前陣子在網上看到一段話:
「懂者得懂其懂,懵者終懵其懵,天機不言即為懂,道破天機豈是懂? 懂是空非空非非空的懂,不懂是色不異空空不異色的不懂:懂自三千大世界來,不懂在此岸與彼岸間徘徊。懂時看山不是山是懂,不懂時看山是山的懂。懂者以不懂證懂,懵者以懂證懵,你說你懂懂與不懂之懂? 你怎知這懂的背後沒有大不懂? 凡言懂者皆未真懂,沉默不語的懂,方是天地不言的大懂不懂的懂是懂,懂的不懂也是懂,此乃懂的最高境界–懂無可懂之懂的真空妙有阿!」
該圖片疑似AI生成

當我還在用邏輯硬啃這段文字時,DeepSeek 反而在勸我別掉進「道破天機豈是懂」的陷阱——它本身就是對理性傲慢的警告,邀請你跳出文字遊戲,直觀內心。
當主流AI都在代碼、數學領域瘋狂內卷,爭著搶著搞 Agent 開發時,寫作能力反倒成了被遺忘的角落。從某種角度說,這倒是個好消息——AI 完全取代編輯的那一天,似乎又往後推了推。
我嘗試讓它創作一個「蚊子在冰島開發布會」的荒誕故事。遺憾的是,DeepSeek V3.1 的 AI 味依然很重,很喜歡拽大詞,哦不對,更準確地說,DeepSeek 味還是那麼重。
同樣的問題在另一個創作任務中也有體現。
當我要求它寫一則「AI 與人類爭奪文章作者身份」的故事時,能明顯感受到某些段落資訊密度過高,反而造成視覺疲勞,尤其意象堆砌感過於明顯,反而削弱了敘事張力。

DeepSeek-V3.1-Base 發布之後,Hugging Face CEO Clément Delangue 在 X 平台發文稱;「DeepSeek V3.1 已在 HF 上排名第四,靜默發布,無需模型卡」然而,他還是低估了這款模型的發展勢頭。
如今它已經躍升至第二位,離登頂估計也就是時間問題。

另外,這次版本更新中最引人注目的變化,是 DeepSeek 在官方 APP 和網頁端移除了深度思考模式中的「R1」標識。此外,DeepSeek R1 還新增了原生「search token」支持,意味著搜索功能得到了進一步優化。
同時,有推測認為,DeepSeek V3.1 可能是融合推理模型與非推理模型的混合模型,但這樣的技術路線是否明智,還有待商榷,而阿里 Qwen 團隊在上個月也表示:
「經過與社區溝通和深思熟慮,我們決定停止使用混合思考模式。相反,我們將分別訓練 Instruct 和 Thinking 模型,以獲得最佳質量。」
截至發稿前,全網翹首以待的 DeepSeek-V3.1-Base 模型卡仍未更新,也許等正式發布後,我們能看到更多有趣的技術細節。
附 Hugging Face 地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base