微軟推出最新視覺基礎模型，可在支持WebGPU的瀏覽器獨立運行

據微軟官方消息，微軟推出視覺基礎模型Florence-2，該模型現已能夠在支持WebGPU的瀏覽器中100%本地運行。Florence-2-base-ft是一個擁有2.3億參數的視覺基礎模型，採用基於提示的方法來處理廣泛的視覺和視覺語言任務。

贊助商廣告

Florence-2是Microsoft在MIT許可下開源的輕量級視覺語言模式。該模型在字幕、對象偵測、接地和分割等任務中展示了強大的零樣本和微調功能。

儘管尺寸很小，但它所取得的結果與大許多倍的模型（如Kosmos-2）相當。該模型的優勢不在於複雜的架構，而在於大規模的FLD-5B數據集，其中包含1.26億張形象和54億個綜合視覺注釋。

該模型支持多種功能，可用於生成圖像、識別字符、分割圖像、檢測物體等等。

Florence-2比其前身更小、更精確。 Florence-2系列由兩個模型組成：Florence-2-base和Florence-2-large，分別有2.3億和7.7億參數。此尺寸甚至允許部署在移動設備上。

儘管規模較小，但Florence-2在所有基準測試中都取得了比Kosmos-2更好的零樣本結果，儘管Kosmos-2擁有16億個參數。

Florence-2的本地化運行得益於Transformers.js和ONNX Runtime Web技術的支持。這一突破不僅提高了用戶隱私保護水平，還大大降低了使用成本，為AI視覺技術的普及應用鋪平了道路。

微軟推出最新視覺基礎模型 ，可在支持WebGPU的瀏覽器獨立運行