
Hugging Face Inc. 今天開源了 SmolVLM-256M,這是一個在其類別中參數量最少的新型視覺語言模型。
該算法的小型特性使其能夠在處理能力相對有限的消費級筆記本電腦等設備上運行。據 Hugging Face 表示,它甚至可能在瀏覽器中運行。後者得益於該模型對 WebGPU 的支持,這項技術允許 AI 驅動的網頁應用程序使用用戶電腦中的圖形處理器。
SmolVLM-256M 可用於多種視覺數據處理任務。它可以回答關於掃描文檔的問題、描述影片內容並解釋圖表。Hugging Face 還開發了一個版本的模型,可以根據用戶提示定製輸出內容。
從技術角度看,SmolVLM-256M 擁有 2.56 億個參數。這僅是最先進基礎模型中數千億參數的一小部分。模型的參數量越低,所需的硬體資源就越少,這也是為什麼 SmolVLM-256M 能夠在筆記本電腦等設備上運行。
該算法是 Hugging Face 發布的一系列開源視覺語言模型中的最新成果。與該公司早期模型相比,SmolVLM-256M 的主要改進之一是使用了新的編碼器。這是一個軟體模塊,負責將 AI 處理的文件轉換為神經網路更容易處理的數學結構編碼。
SmolVLM-256M 的編碼器基於開源 AI 模型 SigLIP base patch-16/512。後者則源自 OpenAI 在 2021 年發布的圖像處理模型。該編碼器包含 9300 萬個參數,不到 Hugging Face 上一代編碼器參數數量的四分之一,這幫助公司減少了 SmolVLM-256M 的硬體需求。
Hugging Face 的工程師 Andres Marafioti、Miquel Farré 和 Merve Noyan 在博客文章中寫道:"作為額外收益,更小的編碼器可以處理更高解析度的圖像,根據蘋果和谷歌的研究,這通常可以在不增加參數數量的情況下獲得更好的視覺理解能力。"
該公司使用其前代視覺語言模型的改進數據集來訓練這個 AI。為了提升 SmolVLM-256M 的推理能力,Hugging Face 在數據集中加入了一系列手寫數學表達式。公司還進行了其他補充,旨在提高模型的文檔理解和圖像描述能力。
在內部評估中,Hugging Face 將 SmolVLM-256M 與其 18 個月前發布的一個擁有 800 億參數的多模態模型進行了比較。在超過半數的基準測試中,前者獲得了更高的分數。在一個名為 MathVista 的包含幾何問題的基準測試中,SmolVLM-256M 的得分高出超過 10%。
Hugging Face 同時推出了第二個更強大的算法 SmolVLM-500M,它擁有 5 億個參數。它犧牲了一些硬體效率來換取更高的輸出質量。根據 Hugging Face 的說法,SmolVLM-500M 在遵循用戶指令方面也表現得更好。
公司的工程師寫道:"如果你需要更多性能空間,同時仍然保持較低的內存使用率,SmolVLM-500M 是我們的五億參數折中方案。"
Hugging Face 已將這兩個模型的源代碼上傳到其同名 AI 項目託管平台。