宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

浙江大學推出動態場景重建的新方法——FreeTimeGS,知名KOL:這就是未來Midjourney要實現的效果

2025年06月10日 首頁 » 熱門科技

動態場景重建一直是電腦視覺和圖形學中的一個重要研究方向,它讓我們能夠從多視角影片中重建真實世界的動態3D場景。

一個人在跳舞,一輛車在飛馳,甚至是一片樹葉在風中搖曳,都能被精準地捕捉下來,並且能在任何時間點,從任何角度去觀看。

這就是「動態場景重建」的終極目標。

很久以來,傳統的動態場景重建方式就像是在拼圖,先把整個場景拆解成無數個靜態的"標準件",然後通過算法把這些標準件扭曲、拉伸到不同的視覺角度。

靜態場景下,這種方法無可厚非,但當場景中存在快速複雜的動作時,比如短跑等體育運動,這種"拼圖式"的重建要麼畫面模糊,要麼會出現變形,這表明,現有的重建技術難以準確捕捉和重現這些複雜動態。

為了解決這一難題,浙江大學與吉利汽車研究院提出了一個叫做FreeTimeGS的新方法,通過一種全新的思路給予高斯基元"自由",讓它們能夠在任意時間和位置出現,從而更好地重建具有複雜動作的動態場景。

知名KOL,Midjourney布道者Nick St. Pierre在看到FreeTimeGS展現的作品後,直接驚呼:這就是Midjourney在不遠的未來應該實現的效果!

 

研究背景:產學結合的前沿探索

FreeTimeGS由浙江大學國家重點實驗室—3DV實驗室,聯合吉利汽車研究院推出,論文於2025年6月發表在預印本平台arXiv上。

浙江大學的3DV實驗室在三維視覺和場景重建領域有著深厚的研究積累,而吉利汽車研究院作為產業界的合作夥伴,為研究提供了實際應用場景的支持,這種學術界與產業界的合作使得研究既有理論創新,又具備實際應用價值。

研究得到了國家自然科學基金、浙江省自然科學基金以及浙江大學資訊技術中心和CAD&CG國家重點實驗室的支持。

從時間線來看,這項工作正好處在一個關鍵節點上,近兩年,基於高斯基元的場景表示方法開始興起,特別是3D Gaussian Splatting技術的出現,為實時渲染帶來了革命性的變化。但現有的動態場景重建方法大多還是沿用傳統的"標準空間 變形場"的思路,在處理複雜運動時力不從心,FreeTimeGS可以說是在恰當的時機提出了一個新的解決思路。

核心成果:從"木偶劇"到"群演表演"的質的飛躍

FreeTimeGS的核心創新在於它徹底改變了表示動態場景的方式。

要理解FreeTimeGS的創新之處,我們需要先了解傳統方法是怎麼工作的,假設我們要重建一個人揮手的動作,傳統方法會先建立一個"標準的手"的模型,然後用複雜的數學函數來描述這隻手在不同時刻應該如何變形。這就像是給一個橡皮泥人偶寫劇本,告訴它每一秒鐘應該扭曲成什麼樣子,這種方法的問題在於,當動作幅度很大或者速度很快時,這種"扭曲變形"就很難描述準確。

FreeTimeGS採用了完全不同的思路,它讓構成場景的每個高斯基元都有自己的"身份證"——不僅記錄著它在空間中的位置、大小、顏色等資訊,還記錄著它的"出生時間"、"活躍期"和"運動軌跡"。

當一個人揮手時,手部區域的高斯基元就可以按照自己的時間表出現,跟隨手的運動軌跡移動,完成任務後自然消失。這就像是從"木偶劇"變成了"群演表演",每個演員都有自己的角色和動作,整體效果自然就更加逼真。

每個高斯基元都有八個關鍵參數:位置、時間、持續時間、速度、尺度、方向、透明度和顏色資訊,其中最關鍵的創新是"時間"和"速度"這兩個參數。時間參數決定了這個基元什麼時候開始發揮作用,而速度參數則決定了它如何在空間中移動。研究團隊用一個簡單而巧妙的線性函數來描述基元的運動:新位置等於初始位置加上速度乘以時間差。這個公式看起來簡單,但卻能有效描述大多數現實世界中的運動模式。

為了控制基元的"生命周期",研究團隊還設計了一個"時間透明度函數",這個函數就像是基元的"生命曲線",描述了基元在不同時刻的活躍程度。在基元的"黃金時期",它會發揮最大作用;而在"年幼"和"年老"時期,作用就會逐漸減弱。這種設計讓整個重建過程更加自然,避免了突兀的出現和消失。

實驗結果非常理想,在Neural3DV數據集上,FreeTimeGS的PSNR指標達到了33.19dB,比之前最好的方法提高了1.4dB。在他們自己收集的SelfCap數據集上,這個提升更加明顯——PSNR達到了27.41dB,比第二名高出了1.43dB。這個數據集包含了舞蹈、寵物玩耍、修自行車等各種複雜運動場景,更能體現方法在實際應用中的價值。

速度方面的表現同樣出色,在RTX 4090顯卡上,FreeTimeGS可以達到467幀每秒的渲染速度,遠超傳統方法。這意味著它不僅質量更好,而且可以實現真正的實時應用。想像一下,在虛擬現實遊戲中,你可以實時觀看一個複雜的動作場景,而且從任何角度看都毫無瑕疵,這就是這項技術的實際價值。

特別值得一提的是,在動態區域的重建質量上,FreeTimeGS的優勢更加明顯,在SelfCap數據集的動態區域評估中,它的PSNR達到了29.38dB,比第二名高出了2.6dB。這說明這個方法確實更擅長處理複雜的運動場景,而這正是動態場景重建最核心的挑戰。

方法評析:從"全球導航"到"局部導航"的技術突破

從技術角度來看,FreeTimeGS的核心優勢在於它改變了問題的表述方式,傳統方法試圖通過複雜的變形場來"強迫"靜態模型適應動態場景,而FreeTimeGS則讓模型本身就具備了動態特性。

傳統的變形場方法需要建立從標準空間到觀察空間的長距離映射關係,這在數學上是一個高度非線性的優化問題,容易陷入局部最優解,而FreeTimeGS只需要處理短距離的運動,每個基元的運動軌跡相對簡單,用線性函數就能很好地描述,這就像是從"全球導航"簡化為"局部導航",難度大大降低。

同時研究團隊發現,在優化過程中,某些高斯基元的透明度會趨近於1,這會阻礙梯度的反向傳播,導致其他基元無法得到有效訓練,為了解決這個問題,他們設計了一個"4D正則化損失",在訓練初期對高透明度的基元進行懲罰,這個策略很聰明,就像是在團隊合作中防止某個人"獨斷專行",確保所有成員都能發揮作用。

FreeTimeGS的另一個創新是"周期性重定位"策略,在訓練過程中,系統會定期將那些透明度較低的基元重新分配到需要更多基元的區域。這種動態調整機制確保了計算資源的有效利用,就像是一個智能的"人力資源管理系統",讓每個基元都能在最需要的地方發揮作用。

在初始化方面,研究團隊也下了不少功夫,他們使用ROMA算法在多視圖圖像中尋找2D匹配點,然後通過三角測量得到3D點,用這些點來初始化基元的位置和時間。通過分析相鄰幀之間的點對應關係,他們還能估算出基元的初始速度。這種基於真實數據的初始化方法比隨機初始化要穩定得多。

不過,這個方法也有一些局限性,首先是參數數量的增加,每個基元現在需要存儲更多的資訊,包括時間、速度等新參數,這會增加存儲開銷。雖然研究團隊通過各種優化策略將存儲成本控制在合理範圍內,但相比傳統方法存儲成本仍會有一定增長。

其次是對運動複雜度的假設,雖然線性運動函數能處理大多數情況,但對於某些高度非線性的運動模式,可能仍然存在局限。比如物體的旋轉運動,用線性函數描述就不夠準確了。

還有就是訓練時間的問題,雖然最終的渲染速度很快,但訓練過程仍然需要大約1小時(在RTX 4090上),這比一些傳統方法要長一些。不過考慮到最終獲得的質量提升,這個代價是可以接受的。

浙江大學推出動態場景重建的新方法——FreeTimeGS,知名KOL:這就是未來Midjourney要實現的效果

結論:開啟自由建模的新時代

FreeTimeGS不是簡單的技術改進,而是從根本上重新思考了動態場景重建這個問題應該如何解決,通過賦予高斯基元時間和運動的自由度,FreeTimeGS展現出了處理複雜動態場景的強大能力。

從應用前景來看,這項技術的潛力是巨大的。

在影視製作領域,它可以大大降低複雜動作場景的製作成本,讓小製作團隊也能製作出好萊塢級別的特效;在VR與AR應用中,它能提供更加逼真的沉浸式體驗;在自動駕駛領域,它可以幫助生成更真實的訓練數據,提高系統的安全性;在體育項目分析中,它可以從多個角度重現比賽中的關鍵時刻,為教練和運動員提供寶貴的分析數據。

更重要的是,這個工作開啟了一個新的研究方向,當高斯基元獲得了時間維度的自由度後,我們可以想像更多的可能性。

比如,是否可以讓基元具備更複雜的運動模式?是否可以引入基元之間的相互作用?是否可以讓基元自適應地調整自己的生命周期?這些問題都值得進一步探索。

從技術發展的角度來看,FreeTimeGS體現了一個重要趨勢:從"約束建模"向"自由建模"的轉變,傳統方法總是試圖通過各種約束來簡化問題,而新方法則更願意給模型更多的自由度,通過更好的優化策略來處理增加的複雜性,這種思路轉變不僅在動態場景重建中有價值,在整個電腦視覺和圖形學領域都可能產生深遠影響。

當然,這項技術還有一些需要完善的地方,研究團隊在論文中也坦誠地指出了兩個主要局限:一是仍需要針對每個場景進行訓練,無法做到"一次訓練,處處使用";二是目前只支持新視角合成,不支持光照變化。這些問題的解決可能需要引入更多的先驗知識和通用性設計。

至頂AI實驗室洞見

我們認為FreeTimeGS代表了動態場景重建領域的一次重要範式轉變,之前,我們總是試圖建立場景的規範,然後通過模擬變形或其他手段來適應不同時刻的觀察結果, FreeTimeGS則告訴我們,有時候,放棄這種規範表示,允許更自由的表達方式,反而能取得更好的效果。

FreeTimeGS最吸引我們的地方在於其「去中心化」的運動建模思想,在很多複雜系統中,將全局的複雜性分解到局部單元的自主行為中,往往能帶來意想不到的簡潔和高效,正是抓住了這一點,FreeTimeGS不再強求一個統一的、複雜的變形場去駕馭所有高斯基元,而是讓每個基元都成為一個獨立的、能夠響應局部變化的智能體。這種設計哲學,不僅簡化了模型的優化難度,也使其在面對高度非剛性、大範圍運動時展現出強大的魯棒性。

FreeTimeGS在帶來巨大靈活性的同時,也可能在某些極端情況下對數據質量和初始化策略提出更高的要求,例如,在處理那些運動軌跡高度不確定、或者場景中存在大量遮擋和解遮擋的複雜交互時,如何確保高斯基元的穩定性和一致性,仍然是一個值得深入探討的問題。

此外,雖然論文展示了出色的實時渲染性能,但其訓練效率和模型規模的控制,在面向更大規模、更長時間跨度的動態場景時,或許還需要進一步的優化和探索。

總的來說,FreeTimeGS是一項兼具理論深度和實際應用價值的優秀研究,尤其是其放棄原有「規範」,另闢蹊徑的思維方式,對整個3D建模領域都具有啟發意義。

其實很多科學突破都來自於對傳統思維的挑戰,就像愛因斯坦放棄了絕對時間,才有了相對論。

論文地址:https://arxiv.org/pdf/2506.05348

END

本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新