宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

筆記本也能生成4096x4096圖片?SANA輕鬆生成高解析度圖像!

2024年10月18日 首頁 » 熱門科技

筆記本也能生成4096x4096圖片?SANA輕鬆生成高解析度圖像!


NVIDIA、麻省理工學院 (MIT) 和京都精華大學的研究團隊發布了一款名為「Sana」的圖像生成AI,它可以在幾秒鐘內生成解析度高達4096×4096的圖像。

筆記本也能生成4096x4096圖片?SANA輕鬆生成高解析度圖像!


以下是用Sana實際生成的圖像範例。使用「astronaut in a jungle, cold color palette, muted colors, detailed,8k(叢林中的宇航員,冷色系,柔和的顏色,精細,8K)」的提示詞,可以生成這樣的圖像:

筆記本也能生成4096x4096圖片?SANA輕鬆生成高解析度圖像!


使用「a cyberpunk cat with a neon sign that says「SANA」(一隻帶有寫著「SANA」的霓虹燈的賽博龐克貓)」的提示詞生成的圖像是:

筆記本也能生成4096x4096圖片?SANA輕鬆生成高解析度圖像!


輸入「portrait photo of a girl, photograph, highly detailed face, depth of field(女孩的肖像照片,寫實,非常細緻的臉部,景深)」的提示詞,則生成了逼真的人物圖像:

筆記本也能生成4096x4096圖片?SANA輕鬆生成高解析度圖像!


根據Sana的開發團隊介紹,相較於傳統只能壓縮至8倍的自動編碼器(Autoencoder),Sana能通過對最大32倍壓縮的自動編碼器進行訓練,進而有效減少潛在標記的數量,實現高效的訓練和4K超高解析度圖像的生成。

此外,Sana使用一個名為「Gemma」的語言模型作為文本編碼器,專門負責解碼器部分,這強化了對提示詞的理解與推理表現。不同於以往的T5模型,Gemma具有更強的文本理解能力,這能在應對訓練不穩定性時,改善圖像與文本的對應關係。同時,為了減少採樣步驟,Sana引入了名為「Flow-DPM-Solver」的機制,這使得採樣步驟從「Flow-Euler-Solver」的28至50步減少到14至20步,從而實現了更有效的標籤生成與選擇。

筆記本也能生成4096x4096圖片?SANA輕鬆生成高解析度圖像!


通過這些努力,Sana在保持與「Flux」等最新的高性能圖像生成AI相當的競爭力的同時,實現了超過100倍的圖像生成速度。開發團隊表示,參數大小為6億的「SANA-0.6B」甚至可以部署在配備16GB內存容量GPU的筆記本上,生成1024×1024解析度的圖像只需1秒鐘。以下是Sana圖像生成時間的比較圖,參數大小為16億的「SANA-1.6B」可以1.2秒生成1024×1024的圖像,15.9秒生成4096×4096的圖像。此外,SANA-0.6B可以0.9秒生成1024×1024的圖像,僅需9.6秒即可生成4096×4096的圖像。

筆記本也能生成4096x4096圖片?SANA輕鬆生成高解析度圖像!


以下是一張Sana與各類圖像生成AI的性能比較表,顯示Sana的各個模型在生成速度和處理量上都遠超其他圖像生成AI。

筆記本也能生成4096x4096圖片?SANA輕鬆生成高解析度圖像!


目前,Sana的源碼尚未公開,但預計將在近日內發布。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新