Meta 近日推出新一代圖像分割模型 SAM 3,實現圖像與影片理解領域的重大突破。用戶現在只需用文字描述或上傳示例圖片,系統就能精準識別、分割並追蹤影片中的任意目標物體。同步開源的 SAM 3D 模型,更在三維重建領域樹立了新標準。

SAM 3 核心的「可提示概念分割」能力,徹底改變了傳統模型依賴固定標籤的工作模式。無論是「條紋紅色雨傘」這樣的具體描述,還是通過圖片示例,模型都能準確理解並執行分割任務。為驗證性能,團隊構建了包含 21.4 萬個概念的 SA-Co 基準數據集,其概念覆蓋範圍達到現有基準的 50 倍以上。
該模型支持多種交互方式,既可接受文字和圖片提示,也兼容點選、框選等傳統操作。當與多模態大模型
配合時,SAM 3 能處理「坐著但沒有拿禮物盒的人」等複雜指令,在多項專業測試中表現優異。
研究團隊通過創新的人機協同標註系統,構建了包含 400 萬個獨特概念的訓練數據集。這套系統使標註效率提升數倍,為模型性能突破奠定了數據基礎。
在英偉達 H200 GPU 上,SAM 3 處理含百餘個目標的圖像僅需 30 毫秒,影片場景下也能保持近實時性能。測試結果顯示,其綜合性能達到前代模型的兩倍,用戶偏好度更是其他領先模型的三倍。
儘管在專業術語理解和多目標影片處理上仍有提升空間,SAM 3 的推出無疑為電腦視覺領域帶來了新的可能,預計將在影視製作、自動駕駛等領域發揮重要作用。






