ChatGPT Images 2.0 圖像模型：文字生成能力大幅提升

曾經，區分人類創作與AI生成圖像並非難事。就在兩年前，圖像生成模型還無法為一家墨西哥餐廳製作菜單，往往會憑空捏造出"enchujita""churiros""burrto""margartas"之類莫名其妙的菜品名稱。

贊助商廣告

而如今，當我向全新的ChatGPT Images 2.0模型請求生成一份墨西哥餐廳菜單時，它所輸出的內容完全可以直接投入使用，顧客幾乎不會察覺任何異樣。（不過，13.5美元的海鮮酸橘汁醃魚或許會讓人對食材品質產生一絲疑慮。）

作為對比，以下是兩年前使用DALL-E 3生成的同類結果。（彼時，ChatGPT尚不具備圖像生成功能。）

AI圖像生成工具在文字拼寫方面歷來表現欠佳，原因在於其通常採用擴散模型——該模型通過從噪聲中重建圖像來工作。

Lesan AI創始人兼CEO Asmelash Teka Hadgu在2024年接受TechCrunch採訪時表示："擴散模型是在對給定輸入進行重建。可以理解為，圖像中的文字只占極小一部分像素，因此圖像生成模型所學習的，是覆蓋更多像素區域的視覺規律。"

此後，研究人員開始探索其他圖像生成機制，例如自回歸模型。與擴散模型不同，自回歸模型通過預測圖像的呈現方式來工作，其運作原理更接近大語言模型。

然而，OpenAI在本周的新聞發布會上拒絕透露ChatGPT Images 2.0底層所採用的模型類型。

儘管如此，該公司仍介紹了新模型具備的"思考能力"——這一能力使其能夠搜索網路、根據單一提示詞生成多張圖像，並對生成結果進行自我檢查。正是這些能力，讓Images 2.0得以製作多種尺寸的營銷素材，以及多格漫畫內容。

OpenAI還表示，Images 2.0對非拉丁文字的渲染能力有所增強，涵蓋日語、韓語、印地語和孟加拉語等語言。該模型的知識截止日期為2025年12月，這可能會影響其在涉及近期新聞事件的提示詞處理上的準確性。

OpenAI在新聞稿中表示："Images 2.0在圖像創作的精準度與還原度方面達到了前所未有的水平。它不僅能夠構思更為複雜的圖像，還能有效地將創意付諸實現——嚴格遵循指令、保留所需細節，並精準渲染那些常令圖像模型出錯的細節元素：小字體文本、圖標、界面元素、密集構圖，以及細微的風格約束，解析度最高可達2K。"

贊助商廣告

這些能力意味著圖像生成的速度無法像向ChatGPT提問那樣即時響應，但即便是生成多格漫畫這類複雜內容，也只需數分鐘即可完成。

從本周二起，所有ChatGPT和Codex用戶均可使用Images 2.0；付費用戶則可生成更高質量的輸出內容。OpenAI還將開放gpt-image-2 API接口，定價將根據輸出質量和解析度有所不同。

Q&A

Q1：ChatGPT Images 2.0 為什麼能更好地生成文字？

A：傳統AI圖像生成工具普遍採用擴散模型，該模型通過從噪聲中重建圖像來工作，而圖像中的文字僅占極小部分像素，導致模型難以準確學習文字規律。研究人員探索出的自回歸模型，其運作原理更接近大語言模型，能夠預測圖像的呈現方式，從而大幅提升了文字生成的準確性。ChatGPT Images 2.0 具備"思考能力"，可對生成結果進行自我檢查，進一步保障了文字及細節的準確渲染。

Q2：ChatGPT Images 2.0 支持哪些語言的文字渲染？

A：OpenAI表示，Images 2.0對非拉丁文字的渲染能力有所增強，目前支持的語言包括日語、韓語、印地語和孟加拉語等。不過，該模型的知識截止日期為2025年12月，因此涉及近期新聞事件的提示詞，其生成準確性可能會受到一定影響。

Q3：ChatGPT Images 2.0 什麼時候可以用？怎麼收費？

A：從本周二起，所有ChatGPT和Codex用戶均可訪問Images 2.0。付費用戶可生成更高質量的輸出內容。OpenAI同時開放了gpt-image-2 API接口，具體定價將依據輸出質量和解析度有所不同。