開源版的 GPT Image 2，資訊圖、連續圖文、本地部署全拿下｜商湯SenseNova U1實測

最近 GPT Image 2 火了之後，網上都是那些徹底以假亂真的 AI 生成圖片。大模型在視覺這條路上越走越遠，讓人興奮又讓人敬畏。

贊助商廣告

而 GPT Image 2 在眼下的 AI 生圖領域，幾乎是沒什麼好爭的。但如果說雲端閉源收費的最好模型是 GPT Image 2，那能部署在本地的，免費開源模型或許會是 SenseNova U1。

▲由 SenseNova U1 生成

SenseNova U1 是商湯最新發布的一個開源的多模態模型，它的 Lite 系列 8B 和 A3B 參數版本，目前已經在 Hugging Face 和 GitHub 上開源。

從模型參數和選擇開源的路線上，我們就能看到它和 GPT Image 2 是不太一樣的方向。

APPSO 也提前拿到了測試資格，我們發現商湯這款新一代原生理解生成統一模型，就開源模型來說，已經做到了最好水平。

它帶來了大模型行業首創的連續圖文生成開源版的GPTImage2資訊圖連續圖文本地部署全拿下商湯SenseNovaU1實測輸出，就是用單一模型就能連貫輸出圖片和文字，這個新鮮很值得去試一試。

目前 SenseNova U1 開源模型的權重已經在 Hugging Face 和 GitHub 上開放下載。

GitHub：https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face：https://huggingface.co/collections/sensenova/SenseNova-U1

帶著圖片的思考

我們可能遇到過這樣的需求，想讓 AI 解釋一個複雜概念，同時配上示意圖，而且圖要跟著文字的邏輯走，解釋到第幾步，圖里就畫到第幾步。

一般的模型可能會直接採用生成代碼的方式來解決這個問題，像 Claude 使用的流式構圖，或者一些 Vibe Coding 的網頁，包含文字和配圖。

但是要完全用一個模型同時在回複流裡面，生成文字和圖片，並且不藉助外部工具的調用，基本上現有的模型做不到這一點。因為文字生成和圖像生成在模型底層，往往是兩件事。

SenseNova U1 的第一項特點，就是在單一模型上進行連續的圖文創作輸出。

比如我們試了一個場景，讓他生成一份簡單的繪本故事，講述一隻小熊歷經四季的變化。

▲ 提示詞：請創作一個圖文繪本故事，主角是一隻棕色的小熊，故事講述它經歷四季變化。

贊助商廣告

生成的連續圖文不僅理解到位，有一定的故事性，而且能很好的保持一致性，同時圖片的文字渲染全部準確，小熊也在冬天穿上了毛衣，戴上了帽子。

實測中發現用 SenseNova U1 來進行一些創意性的工作也非常有意思。

在官方的測試案例里，上傳一張大頭貼給模型，然後要求它設計幾款不同的髮型。可以看到，在生成連續圖文的完整過程中，人物的一致性，以及結構、細節，SenseNova U1 都做到了精準保持。

▲ 提示詞：幫我設計幾款合適的髮型，希望好看的同時比較有特色，然後幫我選一款最適合我的

還能直接讓他設計一個遊戲角色，展示從整體視覺基調、核心交互細節，再到環境敘事和性格刻畫的邏輯疊代過程。

更有意思的是，基於時序性的回答，用 SenseNova U1 創作是再合適不過。我們要求他生成一顆牛油果變成一顆室內盆栽的過程，連續圖文的形式很好地呈現了完整的生長過程。

贊助商廣告

▲ 提示詞：怎麼把一顆普通的牛油果種成一棵室內盆栽

一番測試下來，圖片從來沒有離開過文字的邏輯，推理的思路走到哪裡，圖片就跟到哪。

以前的圖文結合或許是調用不同模型，和對應工具的寫作，確保回復的內容里，圖文是在說同一件事。現在這項寫作從底層直接發生在模型內部，無論是工具還是軟體，都不需要參與對齊的過程了，我們也只需要看到最後的結果。

對內容創作者、設計師和營銷人員來說，SenseNova U1 的出現，開始解決了一個長久以來的痛點，即如何讓 AI 邊寫邊畫，而且圖文邏輯嚴絲合縫。

量大管飽的最強開源

確認了它的原生理解生成統一能力後，我們要看 SenseNova U1 能否在複雜資訊圖生成開源版的GPTImage2資訊圖連續圖文本地部署全拿下商湯SenseNovaU1實測方面，達到開源模型的最好水平。

資訊圖是把一大段複雜的文字或數據，壓縮成一張一眼能看懂的圖。這件事其實比「畫一張漂亮的圖」難得多，需要理解內容，知道哪些是核心，哪些是輔助，資訊之間的邏輯關係，以及文字渲染等，都是難題。

閉源的 GPT Image 2 在這方面已經做得很好了，我們在測試的時候一開始也沒有抱著太大的希望，會比 GPT Image 2 還要更好。但 SenseNova U1 的表現，拿下開源 SOTA 的稱號也確實是當之無愧。

我們先是就用一句話「用一張資訊圖解釋一下 DeepSeek 開源版的GPTImage2資訊圖連續圖文本地部署全拿下商湯SenseNovaU1實測 V4」，沒有任何附加的提示詞，看看它生成的資訊圖表現如何。

▲ 由 SenseNova U1 生成

能看得出來 SenseNova U1 有聯網搜索到和 DeepSeek V4 相關的資訊，像是原生多模態，還有萬億參數，以及百萬的上下文 Token。

而除了簡單的提示詞，還可以直接發送一個鏈接給它，SenseNova U1 也有對應的網頁抓取工具，提取網頁內容，來進行資訊圖的生成。

這些知識科普類的資訊圖，SenseNova U1 的表現基本上都能駕馭。更簡單的像是「一張什麼是電子菸的 3D 拆解科普」，它也能很快生成。

▲由 SenseNova U1 生成

而如果提示詞稍微詳細一點，它也能完全照著提示詞的內容，把這些文字準確渲染成可視化程度較高的資訊圖。

贊助商廣告

還有像是最近很火的武漢三鮮豆皮，直接告訴 SenseNova U1，生成一張三鮮豆皮完整製作流程的步驟圖。

還有夏天來了，挑選不同的防曬霜，也是一張資訊圖，就能把 SPF 和 PA 值這些複雜的挑選參數講清楚。

贊助商廣告

甚至是要它畫一張 AI 大模型從訓練到推理的工作原理圖，適合完全不懂技術的人看懂；SenseNova U1 也能用輕鬆有趣的風格，簡單的描述 AI 大模型的工作過程。

在其他場景的應用，像是營銷、辦公、設計參考和商業分析，我們都用不同的例子來測試了 SenseNova U1 的表現。

一般來說，營銷場景對視覺風格的要求最高，也是最能看出模型有沒有真正理解「用戶想傳遞什麼感受」的地方。一張好的營銷圖片，放在文章中間，甚至有可能直接被我們誤認為是微信的文章內廣告。

就像這張 SenseNova U1 生成的上海旅行資訊圖，不僅把地圖描繪出來了，還列舉了上海的特色。

在辦公場景里，好看又要比準確和高效更重要。我們測試了它對資訊處理的能力，把一份五頁的會議紀要壓縮成一張一屏能看完的總結圖，要求邏輯清晰、重點突出，適合直接轉發給沒參會的同事。

贊助商廣告

複雜的資訊之外，SenseNova U1 也能做到很好的視覺風格參考，給它一段品牌的調性描述，要求生成一張包含配色建議、排版建議、氛圍關鍵詞的風格參考圖，結果居然也還不錯。

在一些數據分析的任務上，我們也測試了 SenseNova U1 數據可視化的能力，用圖表的方式來呈現更合理的資訊圖。

可以看到，SenseNova U1 在資訊提煉這一步做得不錯，它確實讀懂了內容，知道什麼重要什麼次要。

但是在視覺表達上還有提升空間，有時候一些文字的渲染，還是會出現錯誤，對於需要快速出圖、不想花時間在設計工具上反覆調整的場景，已經完全夠用。

下一個多模態模型的樣子

實測完 SenseNova U1，我們發現它的意義，在於它是第一個把「理解和生成統一」這件事認真做出來的開源模型。而這，或許是整個多模態領域下一步要走的方向。

GPT Image 2 的刷屏，說明圖像生成的「生成質量」這條線已經被閉源模型拉得很高了。開源模型如果繼續在同一個維度繼續追，大概需要很長的時間才能趕上，並且開源的價值也會被壓縮到只剩下「便宜」。

SenseNova U1 提供了一個不同的技術路徑，對於整個開源社區的方向都有著重要意義。它除了在解決「怎麼生成更好的圖」，也在告訴我們多模態模型的下一步會是什麼樣子。

贊助商廣告

▲ SenseNova U1 採用了行業首創的 NEO-unify 原生架構，實現多模態理解生成的高效統一

過去的多模態模型，理解圖和生成圖是兩套系統在協作。一套負責看懂輸入，一套負責畫出輸出，中間靠接口傳遞資訊。兩套系統各有各的內部語言，資訊在傳遞過程中會有損耗，就像兩個人用翻譯軟體溝通，意思大體到了，但總有點什麼沒傳過去。

SenseNova U1 則是從底層把這兩件事，合進了同一個表徵空間。他們今年 3 月的技術部落格里，就重點講解了 NEO-unify 這一項架構。

目前大模型行業的慣例是，多模態 AI 看圖要靠一個叫「視覺編碼器（VE）」的東西壓縮處理，然後再交給生成器。在 NEO-unify 架構開源版的GPTImage2資訊圖連續圖文本地部署全拿下商湯SenseNovaU1實測里，商湯把這套臃腫的傳統範式直接扔了。

結合 NEO-unify 結構的 SenseNova U1，所使用的視覺接口是近似無損的，它直接把圖像分塊（Patch）吃進去，不經過任何預訓練編碼器壓縮；然後在同一個主幹網路里，讓文本和視覺的訓練端到端統一進行。

在理解與生成各項基準測試上，SenseNova U1 的表現也達到同量級開源模型的 SOTA 水平，甚至在多項指標上的表現能和 Nano Banana 這些閉源模型相媲美。

▲ 分別是圖像理解、圖像生成，和視覺推理基準測試結果

它回歸了多模態的第一性原理，從底層的像素和文字開始，自己構建內部的認知。

這也能解釋為什麼它消耗的 token 更少，生成效率更高。即使它只有 8B 的參數的版本，也能打出超強的極致性價比。

本次開源的是 SenseNova U1 的輕量版本 SenseNova U1 Lite，目前它有兩個版本：8B 參數的 SenseNova-U1-8B-MoT，可以在邊緣設備上跑；38B 總參數但激活只有 3B 的 SenseNova-U1-A3B-MoT，提供更強能力，同時將推理成本控制得很低。

▲SenseNova U1 已經在 GitHub 和 Hugging Face上開源，鏈接：https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1

兩個版本都可以本地部署、可以微調、可以接進自己的數據管道。對需要把圖像生成能力嵌進自己產品的開發者來說，能夠對模型行為有完全的控制權，數據也不用出去。

贊助商廣告

如果你需要一個能夠高效實現理解與生成的模型，作為開源模型里的最強代表，SenseNova U1 確實值得嘗試。

商湯還在 GitHub 上開源了面向 Agent 運行時的 AIGC 技能庫 SenseNova-Skills。我們可以直接把SenseNova U1這種強大的能力，接入到自己的智能體（Agent）工作流中。

利用這個工具包，我們可以直接在像 OpenClaw、Hermes 這樣的 Agent 平台中一鍵調用。模型會自動評估我們的提示詞，選擇合適的版式，經過多輪生成，輸出最佳的專業資訊圖結果。

▲ Skills 鏈接：https://github.com/OpenSenseNova/SenseNova-Skills

回顧整個測試，SenseNova U1 這次交出了一份不錯的答卷，它是目前我們能拿到手裡的同量級最強開源模型。

對創作者來說，它行業首創的連續圖文創作輸出能力，打破了過去文字與配圖割裂的窘境，真正讓邊思考、邊寫作、邊配圖的連貫創作成為現實。