宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

為什麼AI總畫不出你想要的畫?NextStep-1讓AI生圖實現「所思即所得」

2025年08月26日 首頁 » 熱門科技

你是不是常常遇到這種情況?好不容易寫了一段提示詞,結果生成的圖像卻總是差點意思——不是細節對不上,就是整體氛圍不對。為什麼明明文字描述得很清楚,AI卻總是「畫不出你心裡想的畫面」?問題就出在傳統圖像生成模型的工作方式上。

如果把傳統的圖像生成方法比作一個嚴格按照菜譜烹飪的廚師,那麼StepFun的NextStep-1就像是一個能夠邊品嘗邊根據真實味道做出調整的天才廚師,它可以一邊"寫作"一邊"繪畫",用同一套思維邏輯處理文字和圖像。

為什麼AI總畫不出你想要的畫NextStep1讓AI生圖實現所思即所得

傳統的AI圖像生成就像兩個分工明確的工匠:一個負責理解你的需求描述,另一個負責把這個理解轉化為具體的圖像。這種分工雖然有效,但就像「傳話遊戲」一樣,資訊在傳遞過程中難免會有損失。更關鍵的是,這種方法需要將連續的圖像資訊"切碎"成離散的小塊,就像把一幅完整的油畫撕成無數個小紙片,然後再試圖重新拼接。這個過程不僅會損失細節,還會讓整個系統變得異常複雜。

NextStep-1的革命性在於它採用了一種全新的"烹飪哲學"。這個140億參數的巨大模型就像一個經驗豐富的大廚,它不需要嚴格按照菜譜的每一個步驟,而是能夠根據當前的"味道"來決定下一步應該加什麼"調料",它能夠直接處理連續的圖像資訊,就像處理連續的文字一樣自然。

技術突破的核心秘密

NextStep-1的工作原理就像一個多才多藝的作家,他既能寫小說,也能畫插圖。當你給他一個故事概念時,他會一邊構思情節,一邊在腦中浮現畫面,然後將這兩者完美結合。這種"雙重創作"的能力來源於一個巧妙的架構設計。

傳統的圖像生成模型就像一個翻譯官,需要先把你的文字描述翻譯成一種"中間語言",然後再讓另一個專門的畫家根據這個中間語言來作畫。這個過程中,原始的創意很容易在多次轉換中丟失。NextStep-1則完全不同,它能夠直接從文字描述跳躍到圖像創作,中間沒有任何資訊損失的環節。

為什麼AI總畫不出你想要的畫NextStep1讓AI生圖實現所思即所得

這種能力的實現依賴於一個關鍵的技術創新:Flow Matching Head。如果把傳統的圖像生成比作用模具批量生產產品,那麼Flow Matching Head就像是一個精細的雕刻刀,能夠根據當前的"雕刻進度"來決定下一刀應該怎麼下。這個僅有1.57億參數的小組件,配合主體的140億參數模型,創造出了令人驚艷的協同效果。

更有趣的是,研究團隊發現了一個反直覺的現象:Flow Matching Head的大小幾乎不影響最終的圖像質量。他們測試了從4000萬參數到5.28億參數的不同規格,結果發現生成的圖像質量幾乎沒有差別。這就像發現了一個神奇的畫筆,無論畫筆的大小如何,最終畫作的質量都取決於畫家的技藝,而不是畫筆本身。這個發現證明了真正的"創作智慧"存在於那個140億參數的主體模型中,而Flow Matching Head只是一個精巧的"執行工具"。

數據準備:構建多樣化的"營養食譜"

就像培養一個全能型人才需要豐富多樣的學習材料一樣,NextStep-1的訓練需要四種不同類型的"營養餐"。每一種數據都有獨特的作用,就像均衡飲食中的蛋白質、維生素、碳水化合物和纖維一樣,缺一不可。

第一種是純文本數據,相當於給模型補充"語言維生素"。研究團隊投入了4000億個文本標記,這些來自Step-3數據集的高質量文本就像給一個學習繪畫的孩子同時教授文學一樣,確保模型在生成圖像的同時不會失去對語言的深度理解。這種做法的智慧在於,一個優秀的畫家往往也是一個優秀的故事講述者。

第二種是圖像文本配對數據,這是模型學習"看圖說話"和"聽話畫畫"的基礎教材。研究團隊像精挑細選食材的大廚一樣,從海量的網路數據中篩選出了5.5億對高質量的圖像文本配對。這個過程包括了嚴格的質量檢查:美學評分、水印檢測、清晰度評估、文字識別,以及最重要的圖文語義對齊檢查。更有趣的是,他們還使用了Step-1o-turbo模型重新為這些圖像撰寫了豐富詳細的中英文說明,就像給每道菜重新編寫了精確的食譜一樣。

第三種是指令引導的圖像到圖像數據,這讓模型學會了"改圖"的技藝。研究團隊收集了約100萬個樣本,涵蓋視覺感知、可控圖像生成、圖像修復和通用圖像編輯等多個方面。這就像教會一個畫家不僅要會從頭創作,還要會根據客戶的具體要求修改已有的作品。他們甚至開發了一套嚴格的VLM(視覺語言模型)篩選流程,確保每個編輯任務都具有合理性、一致性和指令對齊性。

第四種是交錯數據,這是最有創意的"營養補充劑"。這種數據將文本和圖像無縫整合,就像製作一本圖文並茂的故事書。其中最引人注目的是他們專門構建的"角色中心場景"數據集NextStep-Video-Interleave-5M。這個數據集的製作過程堪稱藝術:首先從影片中識別特定角色,然後追蹤這些角色在不同場景中的出現,最後為每個場景生成富有故事性的文字描述。這就像為每個電影角色編寫了詳細的"人物小傳",讓模型能夠理解角色的連續性和故事的邏輯性。

訓練策略:循序漸進的"成長計劃"

NextStep-1的訓練過程就像培養一個從小學生成長為藝術大師的完整教育計劃。這個過程分為兩個主要階段:預訓練和後訓練,每個階段都有其獨特的"課程安排"和"教學目標"。

為什麼AI總畫不出你想要的畫NextStep1讓AI生圖實現所思即所得

預訓練階段分為三個遞進的學習期,就像從幼兒園到高中的教育過程。第一階段是基礎學習期,模型在這個階段學習圖像的基本結構和構圖原理。為了確保訓練效率,所有圖像都被統一調整到256×256的解析度,就像讓初學者先練習簡單的素描一樣。訓練數據的配比經過精心設計:20%的純文本確保語言能力不會退化,60%的圖文配對數據提供核心的視覺理解能力,20%的交錯數據增強多模態理解。這個階段消耗了約1.23萬億個標記,相當於閱讀了數百萬本書籍的資訊量。

為什麼AI總畫不出你想要的畫NextStep1讓AI生圖實現所思即所得

第二階段引入了動態解析度策略,就像讓學生從簡單的線條畫進階到複雜的油畫創作。模型開始處理256×256到512×512不同解析度的圖像,並且學會了處理不同的長寬比。這種"不拘一格"的訓練方式讓模型具備了適應各種畫面尺寸的能力,就像一個畫家既能畫小品也能畫巨幅作品一樣。

第三階段是精英化訓練,研究團隊從前面收集的海量數據中精選出了2000萬個最高質量的樣本。這些樣本就像藝術學院的經典範例,在美學評分、圖像清晰度、語義匹配度和無水印程度等方面都達到了極高標準。這個階段的訓練就像讓即將畢業的學生反覆臨摹大師作品,通過與最優秀的範例對話來提升自己的藝術境界。

後訓練階段則像是專業化的進修教育,分為監督微調(SFT)和直接偏好優化(DPO)兩個環節。監督微調階段使用了500萬個精選樣本,這些樣本包含了人類篩選的高質量圖文對、思維鏈(CoT)數據,以及高質量的圖像編輯指令數據。思維鏈數據特別有趣,它教會模型在生成圖像之前先進行"語言思考",就像一個畫家在動筆之前先在心中構思整個創作過程一樣。

直接偏好優化階段則更加精巧。研究團隊構建了兩種類型的偏好數據集:標準DPO數據集和自主思維鏈DPO數據集。標準數據集的製作過程就像藝術評委會的工作:對於每個提示詞,讓模型生成16張候選圖像,然後使用ImageReward評分系統進行排名,從中選擇最優和次優的圖像組成偏好對。自主思維鏈數據集則更進一步,要求模型先生成詳細的文本推理過程,然後基於這個增強的提示詞來生成圖像,這就像要求畫家不僅要畫出好作品,還要能夠清晰地解釋自己的創作思路。

性能表現:全方位的卓越成果

NextStep-1的表現就像一個在各種比賽中都能獲得優異成績的全能選手。在文本到圖像生成的多項基準測試中,它都展現了與頂級擴散模型相媲美的能力,而在自回歸模型中更是獨占鰲頭。

在圖像文本對齊能力的測試中,NextStep-1的表現令人印象深刻。在GenEval基準上,它獲得了0.63分的成績,在使用自主思維鏈技術後更是提升到0.73分。這項測試就像檢驗一個插畫師是否能準確理解客戶需求的考試,包括物體計數、空間定位和構圖對齊等多個維度。在GenAI-Bench的基礎提示測試中,NextStep-1達到了0.88分,在高級提示測試中也有0.67分的表現,使用思維鏈技術後分別提升到0.90分和0.74分。

為什麼AI總畫不出你想要的畫NextStep1讓AI生圖實現所思即所得

特別值得一提的是它在DPG-Bench長文本多對象場景測試中的85.28分成績。這項測試就像要求一個導演根據複雜的劇本拍攝包含眾多角色和道具的電影場景,考驗的是模型在處理複雜、詳細描述時保持構圖完整性的能力。NextStep-1在這項測試中的優異表現證明了它能夠很好地處理現實世界中常見的複雜創作需求。

在OneIG-Bench的細粒度評估中,NextStep-1獲得了0.417分的綜合成績,這個成績顯著超越了其他自回歸模型如Emu3的0.311分和Janus-Pro的0.267分。這項測試就像藝術學院的綜合考試,從對齊精度、文字渲染、推理能力、風格控制和多樣性等多個維度全面評估模型的藝術創作能力。

在世界知識整合能力的WISE基準測試中,NextStep-1展現了0.54分的基礎成績,使用自主思維鏈後提升到0.67分。更令人驚訝的是,在提示詞重寫協議下,它的成績可以達到0.79分,使用思維鏈後更是高達0.83分。這項測試就像考察一個歷史畫家是否能準確描繪不同時代、文化和科學概念的綜合能力,涵蓋了文化、時間、空間、生物、物理和化學六個知識領域。

圖像編輯能力:創意修改的藝術

NextStep-1不僅能夠從零開始創作圖像,它的圖像編輯能力同樣令人讚嘆。研究團隊基於NextStep-1開發了專門的編輯版本NextStep-1-Edit,這就像給一個已經很優秀的畫家再教授修復古畫和定製改畫的專業技能。

為什麼AI總畫不出你想要的畫NextStep1讓AI生圖實現所思即所得

在GEdit-Bench英文提示的全套測試中,NextStep-1-Edit獲得了6.58分的綜合成績。這項測試就像委託一個藝術修復師根據詳細的文字指導對現有畫作進行修改,考驗的不僅是技術精度,還有對指令理解的準確性和修改結果的美學質量。測試包含了三個核心維度:語義一致性(G_SC)、感知質量(G_PQ)和整體評價(G_O),分別評估修改後的圖像是否符合指令要求、視覺質量是否良好,以及整體效果是否令人滿意。

在ImgEdit-Bench測試中,NextStep-1-Edit獲得了3.71分的成績,這個分數與業內領先的專業編輯工具如Flux.1-Kontext-dev相當。這項測試更像是實際的商業項目委託,要求模型根據各種實用性的編輯指令對圖像進行精確修改,包括對象添加、材質改變、背景替換、色彩調整等多種常見的編輯需求。

為什麼AI總畫不出你想要的畫NextStep1讓AI生圖實現所思即所得

NextStep-1-Edit的編輯能力覆蓋了廣泛的應用場景。在對象操作方面,它能夠精確地添加新物體、改變現有物體的材質或屬性。在環境調整方面,它可以無縫地更換背景、調整光照條件或改變整體色調。在風格轉換方面,它能夠在保持原始內容的基礎上應用不同的藝術風格。甚至在複雜的自由形式編輯中,比如讓靜態人物做出不同的動作或表情,NextStep-1-Edit也能夠生成令人滿意的結果。

關鍵技術洞察:深入理解成功的秘密

通過大量的實驗分析,研究團隊發現了幾個關於NextStep-1成功的重要洞察,這些發現就像揭示了一個成功藝術家背後的創作秘密。

首先是關於模型架構的重要發現:真正的"創作大腦"是那個140億參數的變換器主體,而不是Flow Matching Head。研究團隊通過對比實驗發現,即使大幅改變Flow Matching Head的規模(從4000萬參數到5.28億參數),最終的圖像生成質量幾乎沒有差異。這個現象就像發現一個優秀畫家的創作天賦主要來自於大腦中的藝術思維,而不是手中畫筆的精細程度。這意味著NextStep-1真正採用的是純粹的自回歸範式,Flow Matching Head只是一個輕量級的"執行工具",負責將變換器的預測轉換為連續的圖像標記。

其次是關於圖像標記器重要性的深刻認識。研究團隊發現,圖像標記器的重構質量從根本上決定了最終生成圖像質量的上限。這就像建築材料的質量決定了整棟建築的結構強度一樣。他們基於Flux VAE進行了專門的優化,通過通道歸一化和隨機擾動技術,創造了一個更加穩定和魯棒的潛在空間。

特別值得關注的是他們發現的一個反直覺現象:在訓練圖像標記器時,增加噪聲強度雖然會增加生成損失,但卻能顯著提高最終圖像的質量。這個發現就像發現適度的"困難訓練"反而能培養出更強的能力。具體來說,NextStep-1使用了γ=0.5的噪聲強度,這雖然導致了最高的訓練損失,但卻產生了最高質量的圖像。相比之下,追求低訓練損失的設置反而導致模型輸出接近純噪聲的結果。

為什麼AI總畫不出你想要的畫NextStep1讓AI生圖實現所思即所得

這種噪聲正則化技術帶來了兩個關鍵好處:首先是增強了標記器解碼器對潛在擾動的魯棒性,就像讓一個畫家在各種光線條件下都能保持穩定的作畫水平。其次是創造了更加分散的潛在分布,這種分布特性已經被多項研究證明有利於高質量的生成效果。

研究團隊還解決了VAE基自回歸模型中的一個關鍵技術問題:在強分類器自由引導下的視覺偽影問題。傳統方法在使用高引導強度時經常出現灰色斑塊等問題,這就像畫家在用力過度時容易把畫紙撕破一樣。NextStep-1通過通道歸一化技術解決了這個問題,確保了在不同引導強度下標記級統計的一致性,從而避免了分布漂移導致的視覺缺陷。

挑戰與局限:成長路上的考驗

儘管NextStep-1取得了顯著的成功,但研究團隊也誠實地分析了當前面臨的挑戰和局限性。這些問題就像一個優秀學生在成長過程中遇到的新課題,需要進一步的研究和改進。

在高維連續標記處理方面,NextStep-1偶爾會出現一些生成偽影。當從較低維度的潛在空間(比如8倍空間下採樣,4個潛在通道)轉換到更高維度空間(8倍空間下採樣,16個潛在通道)時,模型有時會產生幾種類型的問題。這些問題包括局部噪聲或塊狀偽影、全局噪聲,以及細微的網格狀偽影。研究團隊認為這些問題可能源於數值不穩定性、訓練不足或一維位置編碼在捕獲二維空間關係時的局限性。

推理速度是另一個需要關注的問題。在H100 GPU上的理論分析顯示,對於批處理大小為1的情況,主要的速度瓶頸來自於LLM的串行解碼過程,而Flow Matching Head的多步採樣也占據了相當大的計算開銷。這就像一個畫家需要一筆一筆地完成畫作,而不能像某些技術那樣"批量處理"。不過,這個問題有幾個可能的解決方案:減少Flow Matching Head的參數數量、應用蒸餾技術實現少步生成、使用更先進的少步採樣器,或者借鑑LLM領域的推測解碼和多標記預測等加速技術。

在高解析度訓練方面,NextStep-1面臨著比擴散模型更大的挑戰。嚴格的序列化生成特性要求在高解析度下需要更多的訓練步驟才能收斂,這就像學習繪製大型壁畫需要比小幅作品更多的練習時間。此外,專為高解析度擴散模型開發的技術(如時間步移位)很難直接應用到這種逐塊自回歸生成的框架中,因為Flow Matching Head主要充當採樣器的角色,而核心的生成建模由變換器主體完成。

在監督微調(SFT)過程中,研究團隊發現了一個有趣的現象:與擴散模型不同,NextStep-1需要大規模的數據集才能實現穩定的微調效果。小規模的高質量數據集往往導致不穩定的訓練動態,模型要麼改進甚微,要麼突然過擬合到目標分布。這就像培養一個全能型人才需要廣泛的學習材料,而不能僅僅依靠少數幾個範例。找到既能與目標分布對齊又能保持通用生成能力的中間檢查點,仍然是一個重要的研究課題。

至頂AI實驗室洞見

NextStep-1為自回歸圖像生成領域指明了幾個重要的發展方向。這些方向就像為未來的研究者繪製了一幅技術發展的路線圖。

在推理加速方面,有多個有前景的研究路徑。Flow Matching Head的優化可以通過參數縮減、蒸餾技術或先進採樣器來實現。更有趣的是,LLM領域的推測解碼和多標記預測技術可能為圖像標記生成帶來新的加速可能性。這就像從其他藝術領域借鑑技巧來提高繪畫效率一樣。

高解析度生成是另一個重要的發展方向。研究團隊認為需要專門為逐塊自回歸模型設計新的高解析度生成策略,而不是簡單地移植擴散模型的技術。這可能涉及新的位置編碼方案、更好的空間關係建模,或者創新的多尺度訓練策略。

在模型架構方面,研究團隊的發現為未來的自回歸視覺模型設計提供了重要指導。既然變換器主體承擔了主要的生成建模任務,未來的研究可能會更多地關注如何優化這個核心組件,而不是過分關注輸出頭的複雜性。

數據質量和標記器設計的重要性也為未來研究指明了方向。更好的數據篩選策略、更先進的重新標註技術,以及更魯棒的圖像標記器設計,都將是推動這個領域發展的關鍵因素。

最後,NextStep-1在圖像編輯方面的成功表現為多模態應用開闢了新的可能性。未來的研究可能會探索更複雜的編輯任務、更精細的控制機制,以及與其他模態(如音頻、影片)的整合。

NextStep-1的意義在於它證明了自回歸範式在圖像生成領域的巨大潛力。就像第一批成功的飛行器證明了人類飛行的可能性一樣,NextStep-1為未來的視覺AI發展開闢了一條全新的技術路徑。這種統一的多模態生成方法可能會成為下一代AI系統的基礎架構,讓機器能夠像人類一樣自然地在語言和視覺之間切換,真正實現"所思即所得"的智能創作體驗。

對於普通用戶而言,這意味著未來的AI創作工具將變得更加智能和易用。你可以更自然地描述你的創意想法,AI也能更準確地理解和實現你的視覺需求。而對於研究者和開發者來說,NextStep-1開源的承諾將為整個社區提供寶貴的學習和改進機會,推動整個領域向前發展。

論文地址:https://arxiv.org/pdf/2508.10711

Q&A

Q1:NextStep-1和傳統的AI圖像生成有什麼不同?

A:傳統方法需要先理解文字,再轉換成圖像,就像翻譯一樣會有資訊損失。NextStep-1則能直接從文字描述跳到圖像創作,就像一個既會寫作又會畫畫的藝術家,避免了中間轉換的資訊丟失。

Q2:NextStep-1的圖像編輯功能有多強?

A:NextStep-1-Edit在專業評測中獲得了6.58分(GEdit-Bench)和3.71分(ImgEdit-Bench)的成績,能夠進行對象添加、材質改變、背景替換、色彩調整等各種編輯操作。它就像一個專業的圖像修復師,既能做精細調整,也能進行創意改造。

Q3:普通人能使用NextStep-1嗎?

A:目前NextStep-1的代碼和模型已經在Github開源(github.com/stepfun-ai/NextStep-1),可以自由使用和改進。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新