Meta發布SAM 3模型：用自然語言「分割」影片萬物，3D重建能力再升級

Meta 近日推出新一代圖像分割模型 SAM 3，實現圖像與影片理解領域的重大突破。用戶現在只需用文字描述或上傳示例圖片，系統就能精準識別、分割並追蹤影片中的任意目標物體。同步開源的 SAM 3D 模型，更在三維重建領域樹立了新標準。

贊助商廣告

SAM 3 核心的「可提示概念分割」能力，徹底改變了傳統模型依賴固定標籤的工作模式。無論是「條紋紅色雨傘」這樣的具體描述，還是通過圖片示例，模型都能準確理解並執行分割任務。為驗證性能，團隊構建了包含 21.4 萬個概念的 SA-Co 基準數據集，其概念覆蓋範圍達到現有基準的 50 倍以上。

該模型支持多種交互方式，既可接受文字和圖片提示，也兼容點選、框選等傳統操作。當與多模態大模型 Meta發布SAM3模型用自然語言分割影片萬物3D重建能力再升級配合時，SAM 3 能處理「坐著但沒有拿禮物盒的人」等複雜指令，在多項專業測試中表現優異。

研究團隊通過創新的人機協同標註系統，構建了包含 400 萬個獨特概念的訓練數據集。這套系統使標註效率提升數倍，為模型性能突破奠定了數據基礎。

在英偉達 H200 GPU 上，SAM 3 處理含百餘個目標的圖像僅需 30 毫秒，影片場景下也能保持近實時性能。測試結果顯示，其綜合性能達到前代模型的兩倍，用戶偏好度更是其他領先模型的三倍。

儘管在專業術語理解和多目標影片處理上仍有提升空間，SAM 3 的推出無疑為電腦視覺領域帶來了新的可能，預計將在影視製作、自動駕駛等領域發揮重要作用。