宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

Meta發布也能產生圖說的圖像生成模型CM3Leon

2023年07月18日 首頁 » 熱門科技

Meta發布也能產生圖說的圖像生成模型CM3Leon


Meta上周發布了可同時支持文本與圖像生成的CM3Leon模型,這是史上第一個由純文本語言模型配方所訓練的多模態模型,並宣稱其圖像生成所使用的訓練計算資源只要其它方法的1/5,即可達到先進性能。

CM3Leon是個基於Token、檢索增強與decoder-only的模型,它採用因果隱蔽混合模態(Causal Masked Mixed-Modal,CM3)架構,代表該模型得以僅關注之前的元素來生成輸出串行,確保生成內容的連貫性,且於訓練過程中能夠忽視或隱蔽某些組件,以生成更好的結果,還可同時處理文本及圖像的輸入。

Meta強調CM3Leon是個通用模型,通過單一模型即可處理許多不同的任務,像是以文本描述來生成圖像,也能以文本描述來編輯圖像,或者是要求該模型替圖像生成圖說等。

例如以文本要求它生成「在撒哈拉沙漠的一株小仙人掌戴上了一頂內嵌霓虹太陽眼鏡的草帽」的圖像;也能利用文本幫《戴珍珠耳環的少女》戴上墨鏡,或是以文本調整天空的顏色;用戶還可要求CM3Leon替圖像生成圖說,以文本描繪圖像中的元素。

Meta發布也能產生圖說的圖像生成模型CM3Leon


Meta發布也能產生圖說的圖像生成模型CM3Leon


圖片來源_Meta

研究人員表示,CM3Leon僅使用30億個Token的文本數據進行訓練,大幅低於OpenFlamingo的400億個Token與Flamingo的1,000億個Token,但它卻能在替圖像產生圖說,以及回答圖像問題等兩個任務上,達到與OpenFlamingo相當的zero-shot性能等級。此外,它在回答VizWiz數據集中圖像問題的表現還勝過Flamingo。

有別於今年5月大方開源集成文本、聲音與視覺數據的多模態AI模型ImageBind,此次Meta並未公布是否或何時發布CM3Leon。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新