
最近 GPT Image 2 火了之後,網上都是那些徹底以假亂真的 AI 生成圖片。大模型在視覺這條路上越走越遠,讓人興奮又讓人敬畏。
而 GPT Image 2 在眼下的 AI 生圖領域,幾乎是沒什麼好爭的。但如果說雲端閉源收費的最好模型是 GPT Image 2,那能部署在本地的,免費開源模型或許會是 SenseNova U1
。

▲由 SenseNova U1 生成
SenseNova U1 是商湯最新發布的一個開源的多模態模型,它的 Lite 系列 8B 和 A3B 參數版本,目前已經在 Hugging Face 和 GitHub 上開源。
從模型參數和選擇開源的路線上,我們就能看到它和 GPT Image 2 是不太一樣的方向。
APPSO 也提前拿到了測試資格,我們發現商湯這款新一代原生理解生成統一模型,就開源模型來說,已經做到了最好水平。
它帶來了大模型行業首創的連續圖文生成
輸出,就是用單一模型就能連貫輸出圖片和文字,這個新鮮很值得去試一試。
目前 SenseNova U1 開源模型的權重已經在 Hugging Face 和 GitHub 上開放下載。
GitHub:https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1
帶著圖片的思考
我們可能遇到過這樣的需求,想讓 AI 解釋一個複雜概念,同時配上示意圖,而且圖要跟著文字的邏輯走,解釋到第幾步,圖里就畫到第幾步。
一般的模型可能會直接採用生成代碼的方式來解決這個問題,像 Claude 使用的流式構圖,或者一些 Vibe Coding 的網頁,包含文字和配圖。
但是要完全用一個模型同時在回複流裡面,生成文字和圖片,並且不藉助外部工具的調用,基本上現有的模型做不到這一點。因為文字生成和圖像生成在模型底層,往往是兩件事。
SenseNova U1 的第一項特點,就是在單一模型上進行連續的圖文創作輸出。
比如我們試了一個場景,讓他生成一份簡單的繪本故事,講述一隻小熊歷經四季的變化。

▲ 提示詞:請創作一個圖文繪本故事,主角是一隻棕色的小熊,故事講述它經歷四季變化。
生成的連續圖文不僅理解到位,有一定的故事性,而且能很好的保持一致性,同時圖片的文字渲染全部準確,小熊也在冬天穿上了毛衣,戴上了帽子。
實測中發現用 SenseNova U1 來進行一些創意性的工作也非常有意思。
在官方的測試案例里,上傳一張大頭貼給模型,然後要求它設計幾款不同的髮型。可以看到,在生成連續圖文的完整過程中,人物的一致性,以及結構、細節,SenseNova U1 都做到了精準保持。

▲ 提示詞:幫我設計幾款合適的髮型,希望好看的同時比較有特色,然後幫我選一款最適合我的
還能直接讓他設計一個遊戲角色,展示從整體視覺基調、核心交互細節,再到環境敘事和性格刻畫的邏輯疊代過程。

更有意思的是,基於時序性的回答,用 SenseNova U1 創作是再合適不過。我們要求他生成一顆牛油果變成一顆室內盆栽的過程,連續圖文的形式很好地呈現了完整的生長過程。

▲ 提示詞:怎麼把一顆普通的牛油果種成一棵室內盆栽
一番測試下來,圖片從來沒有離開過文字的邏輯,推理的思路走到哪裡,圖片就跟到哪。
以前的圖文結合或許是調用不同模型,和對應工具的寫作,確保回復的內容里,圖文是在說同一件事。現在這項寫作從底層直接發生在模型內部,無論是工具還是軟體,都不需要參與對齊的過程了,我們也只需要看到最後的結果。
對內容創作者、設計師和營銷人員來說,SenseNova U1 的出現,開始解決了一個長久以來的痛點,即如何讓 AI 邊寫邊畫,而且圖文邏輯嚴絲合縫。
量大管飽的最強開源
確認了它的原生理解生成統一能力後,我們要看 SenseNova U1 能否在複雜資訊圖生成
方面,達到開源模型的最好水平。
資訊圖是把一大段複雜的文字或數據,壓縮成一張一眼能看懂的圖。這件事其實比「畫一張漂亮的圖」難得多,需要理解內容,知道哪些是核心,哪些是輔助,資訊之間的邏輯關係,以及文字渲染等,都是難題。
閉源的 GPT Image 2 在這方面已經做得很好了,我們在測試的時候一開始也沒有抱著太大的希望,會比 GPT Image 2 還要更好。但 SenseNova U1 的表現,拿下開源 SOTA 的稱號也確實是當之無愧。
我們先是就用一句話「用一張資訊圖解釋一下 DeepSeek
V4」,沒有任何附加的提示詞,看看它生成的資訊圖表現如何。

▲ 由 SenseNova U1 生成
能看得出來 SenseNova U1 有聯網搜索到和 DeepSeek V4 相關的資訊,像是原生多模態,還有萬億參數,以及百萬的上下文 Token。
而除了簡單的提示詞,還可以直接發送一個鏈接給它,SenseNova U1 也有對應的網頁抓取工具,提取網頁內容,來進行資訊圖的生成。
這些知識科普類的資訊圖,SenseNova U1 的表現基本上都能駕馭。更簡單的像是「一張什麼是電子菸的 3D 拆解科普」,它也能很快生成。

▲由 SenseNova U1 生成
而如果提示詞稍微詳細一點,它也能完全照著提示詞的內容,把這些文字準確渲染成可視化程度較高的資訊圖。

還有像是最近很火的武漢三鮮豆皮,直接告訴 SenseNova U1,生成一張三鮮豆皮完整製作流程的步驟圖。

還有夏天來了,挑選不同的防曬霜,也是一張資訊圖,就能把 SPF 和 PA 值這些複雜的挑選參數講清楚。

甚至是要它畫一張 AI 大模型從訓練到推理的工作原理圖,適合完全不懂技術的人看懂;SenseNova U1 也能用輕鬆有趣的風格,簡單的描述 AI 大模型的工作過程。

在其他場景的應用,像是營銷、辦公、設計參考和商業分析,我們都用不同的例子來測試了 SenseNova U1 的表現。
一般來說,營銷場景對視覺風格的要求最高,也是最能看出模型有沒有真正理解「用戶想傳遞什麼感受」的地方。一張好的營銷圖片,放在文章中間,甚至有可能直接被我們誤認為是微信的文章內廣告。
就像這張 SenseNova U1 生成的上海旅行資訊圖,不僅把地圖描繪出來了,還列舉了上海的特色。

在辦公場景里,好看又要比準確和高效更重要。我們測試了它對資訊處理的能力,把一份五頁的會議紀要壓縮成一張一屏能看完的總結圖,要求邏輯清晰、重點突出,適合直接轉發給沒參會的同事。

複雜的資訊之外,SenseNova U1 也能做到很好的視覺風格參考,給它一段品牌的調性描述,要求生成一張包含配色建議、排版建議、氛圍關鍵詞的風格參考圖,結果居然也還不錯。

在一些數據分析的任務上,我們也測試了 SenseNova U1 數據可視化的能力,用圖表的方式來呈現更合理的資訊圖。

可以看到,SenseNova U1 在資訊提煉這一步做得不錯,它確實讀懂了內容,知道什麼重要什麼次要。
但是在視覺表達上還有提升空間,有時候一些文字的渲染,還是會出現錯誤,對於需要快速出圖、不想花時間在設計工具上反覆調整的場景,已經完全夠用。
下一個多模態模型的樣子
實測完 SenseNova U1,我們發現它的意義,在於它是第一個把「理解和生成統一」這件事認真做出來的開源模型。而這,或許是整個多模態領域下一步要走的方向。
GPT Image 2 的刷屏,說明圖像生成的「生成質量」這條線已經被閉源模型拉得很高了。開源模型如果繼續在同一個維度繼續追,大概需要很長的時間才能趕上,並且開源的價值也會被壓縮到只剩下「便宜」。
SenseNova U1 提供了一個不同的技術路徑,對於整個開源社區的方向都有著重要意義。它除了在解決「怎麼生成更好的圖」,也在告訴我們多模態模型的下一步會是什麼樣子。

▲ SenseNova U1 採用了行業首創的 NEO-unify 原生架構,實現多模態理解生成的高效統一
過去的多模態模型,理解圖和生成圖是兩套系統在協作。一套負責看懂輸入,一套負責畫出輸出,中間靠接口傳遞資訊。兩套系統各有各的內部語言,資訊在傳遞過程中會有損耗,就像兩個人用翻譯軟體溝通,意思大體到了,但總有點什麼沒傳過去。
SenseNova U1 則是從底層把這兩件事,合進了同一個表徵空間。他們今年 3 月的技術部落格里,就重點講解了 NEO-unify 這一項架構。
目前大模型行業的慣例是,多模態 AI 看圖要靠一個叫「視覺編碼器(VE)」的東西壓縮處理,然後再交給生成器。在 NEO-unify 架構
里,商湯把這套臃腫的傳統範式直接扔了。
結合 NEO-unify 結構的 SenseNova U1,所使用的視覺接口是近似無損的,它直接把圖像分塊(Patch)吃進去,不經過任何預訓練編碼器壓縮;然後在同一個主幹網路里,讓文本和視覺的訓練端到端統一進行。
在理解與生成各項基準測試上,SenseNova U1 的表現也達到同量級開源模型的 SOTA 水平,甚至在多項指標上的表現能和 Nano Banana 這些閉源模型相媲美。

▲ 分別是圖像理解、圖像生成,和視覺推理基準測試結果
它回歸了多模態的第一性原理,從底層的像素和文字開始,自己構建內部的認知。
這也能解釋為什麼它消耗的 token 更少,生成效率更高。即使它只有 8B 的參數的版本,也能打出超強的極致性價比。
本次開源的是 SenseNova U1 的輕量版本 SenseNova U1 Lite,目前它有兩個版本:8B 參數的 SenseNova-U1-8B-MoT,可以在邊緣設備上跑;38B 總參數但激活只有 3B 的 SenseNova-U1-A3B-MoT,提供更強能力,同時將推理成本控制得很低。

▲SenseNova U1 已經在 GitHub 和 Hugging Face上開源,鏈接:https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1
兩個版本都可以本地部署、可以微調、可以接進自己的數據管道。對需要把圖像生成能力嵌進自己產品的開發者來說,能夠對模型行為有完全的控制權,數據也不用出去。
如果你需要一個能夠高效實現理解與生成的模型,作為開源模型里的最強代表,SenseNova U1 確實值得嘗試。
商湯還在 GitHub 上開源了面向 Agent 運行時的 AIGC 技能庫 SenseNova-Skills。我們可以直接把SenseNova U1這種強大的能力,接入到自己的智能體(Agent)工作流中。
利用這個工具包,我們可以直接在像 OpenClaw、Hermes 這樣的 Agent 平台中一鍵調用。模型會自動評估我們的提示詞,選擇合適的版式,經過多輪生成,輸出最佳的專業資訊圖結果。

▲ Skills 鏈接:https://github.com/OpenSenseNova/SenseNova-Skills
回顧整個測試,SenseNova U1 這次交出了一份不錯的答卷,它是目前我們能拿到手裡的同量級最強開源模型。
對創作者來說,它行業首創的連續圖文創作輸出能力,打破了過去文字與配圖割裂的窘境,真正讓邊思考、邊寫作、邊配圖的連貫創作成為現實。






