Meta 在去年震推出了機器學習模型 Segment Anything,能夠自動識別和精準勾勒出圖像中的任何對象。周一在 SIGGRAPH 大會上,Meta 首席執行官馬克·祖克柏首次公開了這款模型的升級版——Segment Anything 2(簡稱 SA2),標誌著這一技術正式跨越至影片領域。
分割是一個技術術語,是指模型在審視圖像時能夠精準區分並標識出各個獨立元素的能力,如「這是一隻獨立的狗,那是它身後的另一棵樹」,而非混淆成「狗與樹融為一體的奇異景象」。儘管這一技術概念已歷經數十載的探索,但近年來,圖像識別技術飛躍式進步,其中「分割一切」是向前邁出的重要一步。
SA2 的推出,是 Segment Anything 系列自然而然的延伸,它不僅局限於靜態圖像的識別,更將觸角延伸至動態影片領域,實現了對影片內容的深度解析與即時分割。儘管理論上可以對影片的每一幀單獨應用初代模型,但 SA2 的問世無疑為這一任務提供了更為高效、流暢的解決方案。
祖克柏在與英偉達 CEO 黃仁勛的對話中提到:「科學家們現在可以利用 SA2 深入研究珊瑚礁、自然棲息地等複雜環境,而無需實地拍攝,這無疑為科研探索開闢了全新的途徑。」
值得注意的是,處理影片數據對計算資源的需求遠超靜態圖像,但 SA2 能夠在不過度依賴大型數據中心資源的情況下高效運行。當然,它仍然是一個龐大的模型,需要強大的硬體才能運行,但即使在一年前,快速、靈活的分割也幾乎是不可能的。
與首代模型一樣,SA2 同樣採取免費開放的策略。目前還沒有關於託管版本的消息,Meta 貢獻了一個包含 50,000 個影片的大型標註資料庫,供全球開發者與研究人員使用。此外,據論文透露,另一份內部專用的、規模超過 100,000 影片的資料庫也被用於 SA2 的訓練過程中。
Meta 長久以來一直是「開放 AI」領域的倡導者與領導者,而近期 LLaMa、Segment Anything 系列模型及更多免費資源的推出,更是將 AI 技術的可及性提升到了新的高度,儘管圍繞「開放性」的爭議依然存在。
對此,祖克柏坦言:「SA2 不僅僅是一個軟體工具,它需要一個繁榮的生態系統來支撐其發展。我們選擇開源,並非出於純粹的利他主義,而是堅信這樣做能夠匯聚全球智慧,共同推動我們構建的產品達到前所未有的高度。」