Hugging Face最近公布了一套新的緊湊型語言模型——SmolLM,這套模型在性能上超越了微軟、Meta以及阿里巴巴千問系列的同類產品。這些新模型能夠為個人設備提供先進的AI功能,且不會影響到設備端性能與用戶隱私。
SmolLM家族擁有三位成員,參數規模分別為1.35億、3.6億及17億,旨在適配不同水平的計算資源。儘管占用空間不大,但這些模型在常識推理與世界知識基準測試當中均擁有出色表現。
身小力不虧:SmolLM如何挑戰AI行業巨頭
Hugging Face公司SmolLM項目首席機器學習工程師Loubna Ben Allal強調,這些緊湊模型在針對特定場景時擁有相當出色的實踐效果。她解釋稱:「我們不需要為每項任務分別建立大規模基礎模型,正如我們沒必要用拆除錘在牆上打眼兒。專為特定任務設計的小模型也能做好很多工作。」
其中體量最小的SmolLM-135M模型儘管在訓練階段使用的token更少,但表現仍然優於Meta的MobileLM-125M。SmolLM-360M號稱在性能上超越了所有參數低於5億的模型,包括Meta及阿里千問系列產品。旗艦級模型SmolLM-1.7B則在多項基準測試中擊敗了微軟的Phi-1.5、Meta的MobileLM-1.5B以及千問Qwen2-1.5B。
Hugging Face還將包括數據管理到各訓練步驟在內整個開發過程進行了開源,迅速獲得業界關注。這種透明度也符合該公司對於開源價值主張以及支持可重複研究的承諾。
秘訣:高質量數據管理推動SmolLM獲得成功
這些模型的出色表現,離不開精心策劃的訓練數據。SmolLM以Cosmo-Corpus為基礎,其中包括Cosmopedia v2(合成教書與故事內容)、Python-Edu(教育性Python示例)以及FineWeb-Edu(精選的教育性網路內容)。
Ben Allal在採訪時解釋道:「通過SmolLM的現實性能,我們證明數據質量是決定模型水平的關鍵因素。我們開發出的創新方法能夠精心策劃高質量數據,將網路來源與合成數據相結合,從而建立起性能最佳小模型。」
SmolLM的發布也有望對AI的可及性及用戶隱私產生重大影響。這些模型完全可以在手機及筆記本電腦等個人設備上運行,因此消除了雲計算需求,同時緩解了成本與隱私問題。
推動AI大眾化:SmolLM對可及性與隱私的影響
Ben Allal還專門強調了SmolLM家族的可及性優勢:「這些能夠在手機和個人電腦上運行、且性能出色的小模型,意味著每個人都可以使用AI技術。這些模型能夠免費解鎖新的可能性,具備完全隱私保障和更低的環境足跡。」
Hugging Face研究團隊負責人Leandro von Werra在採訪時還特別強調了SmolLM的實際意義。「這些緊湊型模型為開發人員和最終用戶打開了一個充滿可能性的世界。從個性化自動補全功能到解析複雜的用戶請求,SmolLM無需昂貴的GPU或者雲基礎設施即可支撐起自定義AI應用程序。無論是降低AI的訪問門檻、還是為每個人提供隱私保護,SmolLM的出現都代表著邁向未來的重要一步。」
像SmolLM這樣強大、高效的小模型,也代表著AI技術迎來了重大轉變。通過令高級AI功能更易於訪問且符合隱私保護需求,Hugging Face解決了人們對於AI環境影響以及數據隱私等潛在威脅的日益增長的擔憂。
隨著SmolLM模型家族、數據集以及訓練代碼的正式亮相,全球AI社區及開發人員現在已經可以探索、改進並構建這種創新的語言模型方法。正如Ben Allal在採訪中做出的總結:「希望更多人參與進來,幫助SmolLM更上一層樓!」