
還記得之前大家熱議的神秘 AI 圖片編輯模型「nano-banana」嗎?
前幾天,我們在 LMArena 大語言模型競技場裡面用它進行了多輪測試,結果表現都非常出色。
現在,Google 終於揭開了它的神秘面紗。
Introducing Gemini 2.5 Flash Image (aka nano-banana), our SOTA image generation and editing model 🍌
— Logan Kilpatrick (@OfficialLoganK) August 26, 2025
As you might have already seen, this model excels at character consistency, creative edits, and has Gemini's world knowledge! pic.twitter.com/kJQVJcMPE6
Google 正式推出了其最先進的圖像生成與編輯模型——Gemini 2.5 Flash Image。

在更新的技術博客裡面,Google 提到此前的 Gemini 2.0 Flash 已經在圖像生成方面,以其低延遲和高性價比受到了開發者的喜愛,但用戶們也一直期待更高質量的圖像和更強大的創作控制功能。
Gemini 2.5 Flash Image 就是帶著一系列的重磅更新,來強勢回應這些期待。
和我們之前的體驗效果一樣,Gemini 2.5 Flash Image 的主要特點包括下面幾點
- 充分保持角色的一致性
- 基於提示的圖片編輯
- 利用 Gemini 的現實世界知識
- 多幅圖像融合
一張圖講一個故事:角色、場景隨心換
以往的 AI 繪圖工具,最大的痛點之一就是難以保持角色或物體的一致性。我們都曾經經歷過,想讓同一個角色出現在不同場景中,結果卻常常畫風突變,每一次生成都像換了個人。
Gemini 2.5 Flash Image 徹底解決了這個問題。

它可以輕鬆地將同一個角色置於不同的環境中,或者從多個角度展示同一款產品,同時完美地保持其核心主體不變。Google 提到這對於需要講述連續故事、生成品牌系列資產或製作產品目錄的場景來說,無疑是一項革命性的功能。
為了展示這項能力,Google AI Studio 中還提供了一個模板應用,讓開發者可以快速上手,甚至在其基礎上進行二次開發。

在這個體驗項目里,我們不需要輸入任何的提示詞,只用上傳一張人像照片,它就會調用這個最新的圖像模型,為我們生成從 1976 年 到 1990 年等各個年份的照片。
馬斯克看到自己這麼帥心裡一定在想,我的 Grok 也可以。
一句話修圖,用自然語言精準編輯
除了這種保持好高度一致的角色生成,精準的編輯也是一大亮點。Gemini 2.5 Flash Image 允許我們通過簡單的自然語言指令,對圖片進行精準的局部修改 。
像是模糊圖片背景、消除 T 恤上的污漬、從合照中移除某個人、改變人物的姿勢、為黑白照片上色……
這一切,都不再需要複雜繁瑣的專業軟體操作,我們只需要像聊天一樣,用一句話告訴 AI 想做什麼即可。
這跟我們之前在 LMArena 中的體驗是一樣的,像是我們也轉換過照片的風格,從黑白到彩色;以及對照片進行細微的調整等。

Google 同樣設計了一個簡單的應用,來方便我們更好的體驗這種基於提示詞的圖像編輯,但是完全媲美 PS 軟體的效果。

不止會畫,更「懂」世界
過去的圖像模型雖然能創造出精美的圖片,但往往缺乏對現實世界的深層語義理解 。
Gemini 2.5 Flash Image 藉助 Gemini 強大的世界知識庫,讓圖像生成變得更加「智能」。
這意味著,模型不僅能看懂我們潦草手繪的圖表,還能回答與現實世界相關的問題,並一步到位地執行複雜的編輯指令。

聽起來很有多模態推理的感覺,Google 在 AI Studio 中展示了一個互動教育應用,將一塊簡單的畫布變成了可以答疑解惑的智能導師,我由衷的感嘆這個模型是真的厲害。
圖像融合:輕鬆實現「無縫」拼貼
新模型還帶來了一項酷炫的功能——多圖像融合。我們可以將一張圖片中的物體「放」進另一張圖片的場景里,或者用一張圖的風格去渲染另一間屋子,整個過程只需一條提示指令就能完成。
同樣是 Google AI Studio 裡面的模板體驗應用,我們只需要把產品拖拽到新場景中,就可快速生成一張毫無違和感的、真實照片般的融合圖像。

在這個模板應用裡面,我們甚至不需要輸入任何提示詞,可以直接拖動某個物體,到場景圖片上的具體位置,然後它會自動生成融合的圖片。
如何上手體驗?
除了我們在前面提到的那些 Google AI Studio 裡面的模板應用。
To get started:
1. Go to https://t.co/382WL5xSvc or open your app
2. Upload a photo or generate one
3. Edit and prompt away
Need more ideas? We’ve got a bunch of them coming throughout the week. Drop any requests and let us know what images you’re making in the replies!— Google Gemini App (@GeminiApp) August 26, 2025
目前,Gemini 2.5 Flash Image 已經可以通過 Gemini APP、Gemini API、Google AI Studio 和 Vertex AI 進行訪問。
關於調用 API,具體的定價是每百萬輸出 token 30 美元,官方介紹,生成一張圖片大約消耗 1290 個輸出 token,也就是說,每張圖片的成本約為 0.039 美元,換算下來不到 3 毛錢。

值得一提的是,所有通過 Gemini 2.5 Flash Image 創建或編輯的圖片,都會包含 SynthID 隱形數字水印,以便識別其為 AI 生成或編輯的內容。
這跟前些天 Google 發布 Pixel 10 系列手機時,講到 AI 圖片編輯 Ask Photo 工具時,使用的 C2PA(內容來源和真實性聯盟) 內容憑證是一樣的。
最後,Google 還提到正在努力提升模型在長文本渲染、角色一致性穩定度和圖像細節真實性等方面的表現。
總而言之,Gemini 2.5 Flash Image 的發布,讓 AI 圖像工具從一個單純的繪畫玩具,向一個真正實用的創意與生產力工具邁出了一大步。
它不僅解決了我們過去使用 AI 繪圖時的諸多痛點,還帶來了更多有趣、實用的新玩法。
之前 4o 生圖能力出來,看到很多 App 開始主打用一張圖每天生成一首詩,還有像是拿到了今年 Apple 設計大獎的 CapWords,拍一張生活里的照片,來實景學習一門新的語言……

我現在已經迫不及待想看到基於 Gemini 2.5 Flash Image 模型,又會有哪些新應用誕生了。