宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

英偉達公布研究成果,助力AI生成圖像與3D提速

2024年03月22日 首頁 » 熱門科技

英偉達公布研究成果,助力AI生成圖像與3D提速

與大多數技術一樣,在生成式AI領域,時間本身就是寶貴的財富。但對於生成式AI,這種「寶貴」還能夠明確量化。AI模型執行操作(例如數據訓練或者生成圖像和影片)所耗費的時間越長,對應的成本投入也就越高。

英偉達多倫多AI實驗室的研究人員正努力解決生成圖像與影片的時間問題。在本周英偉達GTC 2024大會上,他們概述了這項工作的部分成果,展示的相關進展有助於更快(因此更經濟)生成「噪聲」更少的圖像與細節更豐富的3D圖形,甚至能夠將以往耗時幾周或幾個月的任務縮短至幾天乃至幾分鐘。

在展會上的演講中,英偉達AI研究副總裁Sanja Fidler談到了生成式AI的這一「關鍵進展」,即「設計出一系列新型算法,能夠在規模極大的數據集和電腦上訓練龐大模型並以可負擔的成本執行推理。」

在圖像生成方面,研究人員主要著眼於推動擴散模型的提速。此類模型善於解決高保真度、高解析度圖像這一棘手難題,同時也是OpenAI Dall-E3和谷歌Imagen等文本到圖像模型的底層技術。從本質上講,圖像生成是在消除「噪聲」——也就是圖像原始場景內容中不存在的偽影,但這同時也會導致圖像內容模糊、像素化、顯示粗糙顆粒或者其他影響質量的問題。

因此行業也曾嘗試利用其他模型來提高圖像準確性,例如GAN和flow model流模型,但擴散模型最終成為最前沿的解決方案。擴散模型的處理過程分為兩步,首先向數據集中添加高斯噪聲(前向擴散過程),之後反轉加噪過程,本質上就是教導模型如何從圖像中去除噪聲。

英偉達研究人員認真研究了擴散模型,包括採樣、參數化和訓練等環節,並探索了ADM(消融擴散模型)去噪網路的性能優化與訓練提速方法。

迎接EDM-2

在GTC大會最後一天發布的技術博客中,英偉達負責神經生成模型與電腦圖形學的高級研究科學家Miika Aittala寫道,英偉達研究人員開發的EDM-2是一種「簡化的神經網路架構與訓練配方,其類似於一塊厚實、乾淨的蓋板,能夠在隔離ADM強大核心的同時擺脫過往的累贅與阻礙。」

研究人員還重點關注了「一種鮮為人知,但又極其重要的網路權重指數移動平均過程,並大大簡化了該超參數的調節方式。」

以此為基礎,EDM-2能夠與GAN和VDM 等其他方法正面競爭,並在生成質量相當的前提下降低複雜性、加快訓練速度,且隨著模型體量增加其生成質量也會不斷提高。

Fidler在演講中表示,研究結果解決了模型用戶和開發人員們的擔憂。用戶最關注的是圖像質量,而EDM-2的輸出質量非常高。她還提到,「我們還測量了計算時間,也就是模型的實際訓練周期。開發人員對這項指標同樣非常關注,因為訓練時間與周轉時間就決定著訓練成本。」

訓練速度越快,訓練成本就越低。而根據Fidler的介紹,EDM-2的訓練速度相當於其他擴散模型的5倍。也就是說,以往需要一個月的訓練作業現在可能幾天之內即可完成。

研究人員們探索的關鍵,是通過解決模型中激活與權重的增長問題來改善神經網路的運行效率。Aittala寫道,這個複雜的問題雖然不會阻止神經網路的學習過程,但這是一種「不健康的現象,嚴重阻礙了訓練的速度、可靠性與可預測性,最終有損實際輸出質量。」

博文同時提到,消除激活與權重增長並制定指數移動平均線(EMA)的計算方式(在本質上就是將EMA長度較短的中間訓練狀態定期存儲為快照),要比重新運行整個訓練高效得多。

Fidler表示,英偉達將公布EDM-2代碼,幫助各方提高擴散模型的訓練效率。

LATTE3D性能起飛

作為以速度和保真度為核心訴求的研究成果,LATTE3D是一套文本到3D生成式AI模型,可用於輸出物體和動物的3D表示。Fidler介紹稱,使用LATTE3D幾乎可以讓高質量圖像輸出即時化,用時僅在一秒左右。

LATTE3D可用於電子遊戲、設計項目乃至機器人虛擬訓練等各個領域,這也是GTC大會期間備受關注的生成式AI與自動化應用方向。

Fidler在博文中指出,「一年之前,AI模型還需要一個小時才能生成這種質量的3D視覺效果;但以當前的技術水平,整個過程只需要10到12秒。我們現在可以更快產出結果,幫助各行業的創作者獲得近乎實時的文本到3D輸出能力。」

英偉達公布研究成果,助力AI生成圖像與3D提速

英偉達的研究人員還在論文中提到,其他3D圖像生成方法往往涉及一系列權衡。雖然權衡的結果可能相當出色,但針對每條提示詞的優化過程往往需要個把小時。

他們寫道,「像ATT3D這樣的攤銷方法可以同時優化多條提示詞以提高效率,從而實現文本到3D的快速生成。但由於其泛化能力很差,且無法捕捉高頻幾何與紋理細節,因此很難被擴展至大型提示集。」

此外,「這些方法往往要求昂貴且耗時的優化過程,創作者可能需要個把小時才能根據文本提示詞重大單個3D對象。」

而藉助LATTE3D(大規模攤銷型文本到增強3D),英偉達構建起一套可擴展架構,並在優化過程中使用3D數據實現論文作者所謂「3D感知擴散先驗、形狀正則化及模型初始化來實現健壯的多樣性與複雜訓練提示能力。」LATTE3D利用神經場與紋理表面生成「在一次前向傳遞中創建細節豐富的紋理網格」,藉此將3D對象的生成耗時控制在400毫秒以內。

根據博文介紹,LATTE3D並非從零開始設計或者解析3D資源庫,而是「根據每條文本提示詞生成多個不同的3D形狀選項,可供創作者靈活選擇。所選對象可以在幾分鐘內完成優化以進一步提升質量。」

之後,用戶可以將這些成果轉發至圖形應用程序或平台中,包括英偉達Omniverse,在那裡使用通用場景描述(OpenUSD)3D工作流程與軟體做後續處理。

英偉達公布研究成果,助力AI生成圖像與3D提速

該模型使用英偉達自家的「Ampere」A100 GPU進行訓練,並配合ChatGPT聊天機器人為其提供各種文本提示輸入,因此可以輕鬆應對用戶輸入的短語並生成相應的3D對象。上圖所示,為與狗相關的不同提示詞生成的相應結果。

英偉達研究人員在演示中僅使用單塊RTX A6000 GPU。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新