宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

全新 Meta-AI 可將 2D 圖像轉換為 3D 模型

2023年02月01日 首頁 » 熱門科技

Meta 研究人員提出了 MCC,這是一種可以從單個圖像重建 3D 模型的方法。該公司從中看到了 VR/AR 和機器人技術的應用前景。

基於 Transformer 等架構和大量訓練數據的 AI 模型已經產生了令人印象深刻的語言模型,例如 OpenAI 的 GPT-3 或最近的 ChatGPT。

全新 Meta-AI 可將 2D 圖像轉換為 3D 模型

自然語言處理的突破帶來了一個核心見解:擴展使基本模型能夠拋棄以前的方法。先決條件是獨立於領域的架構,例如轉換器,它可以處理不同模式,以及來自非結構化和部分未標記數據的自我監控訓練。

結合大規模的、獨立於類別的學習,這種架構近年來越來越多地用於語言處理以外的領域,如圖像合成或圖像分析。

MetaMCC為 3D 重建帶來規模化處理

Meta FAIR Lab展示了多視圖壓縮編碼(MCC),這是一種基於變壓器的編碼器-解碼器模型,可以從單個 RGB-D 圖像重建 3D 對象。

研究人員認為 MCC 是邁向用於 3D 重建的通用 AI 模型的重要一步,可用於機器人或 AR/VR應用,為更好地了解 3D 空間和對象或視覺重建開闢了許多可能性。

雖然其他方法,如 NERF 需要多幅圖像,或者它們的模型需要與 3D CAD 模型或其他難以獲取並因此無法擴展的數據進行訓練,但Meta數據依賴於從 RGB D 圖像中重建 3D 點。

這些具有深度資訊的圖像現在已經很容易獲得了,這是由於帶有深度傳感器的 iPhone 和簡單AI網路的普及,後者從 RGB 圖像中獲取深度資訊。根據 Meta 的說法,這種方法具有很好的可伸縮性,而且將來很容易產生大數據集。

全新 Meta-AI 可將 2D 圖像轉換為 3D 模型

為了證明這種方法的優點,研究人員使用大量圖像和影片來訓練 MCC,這些圖像和錄像包含來自不同數據集的深度資訊,從多個角度顯示物體或整個場景。

在 AI 培訓期間,模型將被剝奪每個場景或對象的一些可用視圖,它們作為 AI 重建的學習信號。該方法類似於語言或圖像模型的培訓,其中部分數據也經常被隱藏。

Metas 3D 重建顯示了強大的通用性

Metas AI 模型在測試中顯示了有效且優於其他方案的優勢。該團隊還表示,MCC 還可以處理以前沒見過的對象類別或整個場景。

此外,MCC 顯示了預期的擴展特性:隨著更多的訓練數據和更多樣化的對象類別,性能顯著提升。ImageNet 和 DALL-E 2 圖像也可以在 3D 點雲中重建,並提供相應的深度資訊。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新