
Mistral AI 和艾倫人工智慧研究所 (Allen Institute for AI) 今天發布了新的大語言模型,他們聲稱這些模型在各自類別中都屬於最先進的水平。
Mistral 的新模型名為 Mistral Small 3。而艾倫人工智慧研究所 (通常簡稱為 Ai2) 的新大語言模型則被命名為 Tülu 3 405B。這兩個模型都採用開源許可證發布。
Mistral Small 3 包含 240 億參數,比市場上最先進的大語言模型的參數量要少得多。這意味著在啟用量化後,它小到足以在某些 MacBook 上運行。量化是一種配置大語言模型的方法,通過犧牲一些輸出質量來換取更低的硬體資源使用。
在內部評估中,Mistral 將 Mistral Small 3 與 Meta Platforms Inc. 開發的開源大語言模型 Llama 3.3 70B Instruct 進行了對比,後者的參數量是前者的三倍多。結果顯示 Mistral Small 3 在提供相當輸出質量的同時,響應速度明顯更快。在另一項測試中,這個新模型相比 OpenAI 的 GPT-4 mini 展現出更高的輸出質量和更低的延遲。
開發者通常通過創建基礎模型,然後使用多種訓練方法來提升其輸出質量來構建大語言模型。在開發 Mistral Small 3 時,公司只開發了基礎模型,跳過了後續的優化過程。這使用戶可以根據自己的項目需求對 Mistral Small 3 進行個性化微調。
該公司認為開發者可以將這個大語言模型應用於多種任務。據 Mistral 稱,該模型適用於需要低延遲在外部應用程序中執行任務的 AI 自動化工具。公司表示,他們的多個客戶正在機器人、金融服務和製造業等領域將 Mistral Small 3 應用於特定行業場景。
"Mistral Small 3 是一個預訓練和指令型模型,專注於滿足生成式 AI 任務中的'80%'需求——那些需要強大的語言能力和指令遵循能力,且要求極低延遲的任務,"Mistral 的研究人員在博客文章中寫道。
Mistral Small 3 的發布同時,非營利 AI 機構 A2I 也發布了新的大語言模型。Tülu 3 405B 是 Meta 去年 6 月推出的開源模型 Llama 3.1 405B 的定製版本。在 Ai2 進行的測試中,Tülu 3 405B 在超過半打基準測試中的表現都優於原始 Llama 模型。
研究團隊使用了他們在 11 月首次詳細介紹的開發流程來創建這個大語言模型。該工作流程整合了多種大語言模型訓練方法,包括 Ai2 自主研發的一種方法。
工作流程的第一步是專注於監督式微調。這是一種向大語言模型提供樣本提示和相應答案的訓練方法,有助於模型學習如何響應用戶查詢。接下來,Ai2 使用了另一種稱為 DPO 的訓練技術,使 Tülu 3 405B 的輸出與一組用戶偏好保持一致。
Ai2 還使用內部開發的名為 RLVR 的訓練方法進一步提升了模型的能力。這是一種強化學習的變體,而強化學習是一種廣泛使用的 AI 訓練技術。Ai2 表示,RLVR 能夠提升 AI 模型在解決數學問題等任務上的表現。
Tülu 3 405B 代表了"首次將完全開放的後訓練方案應用於最大的開放權重模型",Ai2 的研究人員在博客文章中寫道。"通過這次發布,我們展示了我們的後訓練方案在 4050 億參數規模上的可擴展性和有效性。"