OpenAI本周對外披露了新一代的文本轉圖像模型DALL·E 3,指出該模型不但更能精確地以圖像呈現用戶所輸入的文本描述,也允許用戶利用ChatGPT來產生不同的文本描述與相對應的圖像。現階段DALL·E 3尚處於研究預覽階段,預計於10月供應給ChatGPT Plus及ChatGPT Enterprise客戶。
OpenAI指出,現代的文本轉圖像系統傾向於忽視文本或描述,迫使用戶學習如何輸入提示,但DALL·E 3在如何精確依照用戶所輸入的文本,來生成圖像的能力上,卻有著跳躍式的增長。
例如得以文本描繪「一個有著明月照耀的熙攘街道,一名身穿天鵝絨斗篷的年輕紅髮女子與穿著筆挺西裝的老商人正在討價還價,老商人一方面還在講著蒸汽朋克電話」DALL·E 3即可生成驚人的畫面。
圖片來源_OpenAI
就算在DALL·E 3中輸入與DALL·E 2同樣的文本描述,要求「以油畫呈現具備爆炸效果與張力的灌籃動作」,DALL·E 3的表現明顯更加突出。
此外,用戶還可藉由ChatGPT的協助來生成文本敘述,只要在ChatGPT中輸入簡單的句子,告訴它你想看到的畫面,ChatGPT便會自動生成詳細的敘述以用來輸入DALL·E 3,而且ChatGPT還能生成不同的描述,一直到DALL·E 3所產生的畫面符合用戶的需求。
對於通過DALL·E 2或DALL·E 3所生成的畫面,用戶都可自由使用,不需OpenAI的許可便可重印或出售。
至於對DALL·E 3的限制則與DALL·E 2差不多,OpenAI限制了DALL·E 3生成暴力、成人或有害內容的能力,也會拒絕用戶要求生成仍在世的藝術家風格圖像的請求。