宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

ChatGPT Images 2.0 圖像模型:文字生成能力大幅提升

2026年04月22日 首頁 » 熱門科技

曾經,區分人類創作與AI生成圖像並非難事。就在兩年前,圖像生成模型還無法為一家墨西哥餐廳製作菜單,往往會憑空捏造出"enchujita""churiros""burrto""margartas"之類莫名其妙的菜品名稱。

而如今,當我向全新的ChatGPT Images 2.0模型請求生成一份墨西哥餐廳菜單時,它所輸出的內容完全可以直接投入使用,顧客幾乎不會察覺任何異樣。(不過,13.5美元的海鮮酸橘汁醃魚或許會讓人對食材品質產生一絲疑慮。)

作為對比,以下是兩年前使用DALL-E 3生成的同類結果。(彼時,ChatGPT尚不具備圖像生成功能。)

AI圖像生成工具在文字拼寫方面歷來表現欠佳,原因在於其通常採用擴散模型——該模型通過從噪聲中重建圖像來工作。

Lesan AI創始人兼CEO Asmelash Teka Hadgu在2024年接受TechCrunch採訪時表示:"擴散模型是在對給定輸入進行重建。可以理解為,圖像中的文字只占極小一部分像素,因此圖像生成模型所學習的,是覆蓋更多像素區域的視覺規律。"

此後,研究人員開始探索其他圖像生成機制,例如自回歸模型。與擴散模型不同,自回歸模型通過預測圖像的呈現方式來工作,其運作原理更接近大語言模型。

然而,OpenAI在本周的新聞發布會上拒絕透露ChatGPT Images 2.0底層所採用的模型類型。

儘管如此,該公司仍介紹了新模型具備的"思考能力"——這一能力使其能夠搜索網路、根據單一提示詞生成多張圖像,並對生成結果進行自我檢查。正是這些能力,讓Images 2.0得以製作多種尺寸的營銷素材,以及多格漫畫內容。

OpenAI還表示,Images 2.0對非拉丁文字的渲染能力有所增強,涵蓋日語、韓語、印地語和孟加拉語等語言。該模型的知識截止日期為2025年12月,這可能會影響其在涉及近期新聞事件的提示詞處理上的準確性。

OpenAI在新聞稿中表示:"Images 2.0在圖像創作的精準度與還原度方面達到了前所未有的水平。它不僅能夠構思更為複雜的圖像,還能有效地將創意付諸實現——嚴格遵循指令、保留所需細節,並精準渲染那些常令圖像模型出錯的細節元素:小字體文本、圖標、界面元素、密集構圖,以及細微的風格約束,解析度最高可達2K。"

這些能力意味著圖像生成的速度無法像向ChatGPT提問那樣即時響應,但即便是生成多格漫畫這類複雜內容,也只需數分鐘即可完成。

從本周二起,所有ChatGPT和Codex用戶均可使用Images 2.0;付費用戶則可生成更高質量的輸出內容。OpenAI還將開放gpt-image-2 API接口,定價將根據輸出質量和解析度有所不同。

Q&A

Q1:ChatGPT Images 2.0 為什麼能更好地生成文字?

A:傳統AI圖像生成工具普遍採用擴散模型,該模型通過從噪聲中重建圖像來工作,而圖像中的文字僅占極小部分像素,導致模型難以準確學習文字規律。研究人員探索出的自回歸模型,其運作原理更接近大語言模型,能夠預測圖像的呈現方式,從而大幅提升了文字生成的準確性。ChatGPT Images 2.0 具備"思考能力",可對生成結果進行自我檢查,進一步保障了文字及細節的準確渲染。

Q2:ChatGPT Images 2.0 支持哪些語言的文字渲染?

A:OpenAI表示,Images 2.0對非拉丁文字的渲染能力有所增強,目前支持的語言包括日語、韓語、印地語和孟加拉語等。不過,該模型的知識截止日期為2025年12月,因此涉及近期新聞事件的提示詞,其生成準確性可能會受到一定影響。

Q3:ChatGPT Images 2.0 什麼時候可以用?怎麼收費?

A:從本周二起,所有ChatGPT和Codex用戶均可訪問Images 2.0。付費用戶可生成更高質量的輸出內容。OpenAI同時開放了gpt-image-2 API接口,具體定價將依據輸出質量和解析度有所不同。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新