
DeepSeek 今天發布了一個新的大語言模型系列 - R1 系列,該系列專門針對推理任務進行了優化。
這家中國人工智慧開發商已經在 Hugging Face 平台上開源了這些算法的源代碼。
該大語言模型系列的主打產品是兩個名為 R1 和 R1-Zero 的算法。據 DeepSeek 稱,前者在多個推理基準測試中的表現優於 OpenAI 的 o1。而 R1-Zero 雖然能力相對較弱,但在機器學習研究領域可能代表著一個重要突破。
這兩個大語言模型都採用了具有 6710 億參數的混合專家 (MoE) 架構。MoE 模型由多個神經網路組成,每個網路都針對不同的任務集進行優化。當模型接收到輸入提示時,一個稱為路由器的機制會將查詢發送到最適合處理它的神經網路。
MoE 架構的主要優勢在於降低了推理成本。當用戶向 MoE 模型輸入提示時,查詢不會激活整個 AI,而只會激活生成響應所需的特定神經網路。因此,R1 和 R1-Zero 在回答提示時激活的參數不到其 6710 億參數的十分之一。
DeepSeek 在訓練 R1-Zero 時採用了一種與研究人員通常使用的推理模型訓練方法不同的方式。
推理優化的大語言模型通常使用強化學習和監督微調兩種方法進行訓練。前者通過試錯來教會 AI 模型執行任務。而監督微調則通過提供任務執行示例來提升 AI 的輸出質量。
在訓練 R1-Zero 時,DeepSeek 跳過了監督微調階段。儘管如此,該公司仍然成功地為模型配備了推理能力,比如將複雜任務分解為更簡單子步驟的能力。
"這是首個通過純強化學習驗證大語言模型推理能力的開放研究,無需監督微調," DeepSeek 的研究人員詳細說明。"這一突破為該領域的未來發展鋪平了道路。"
儘管 R1-Zero 具有先進的功能集,但其輸出質量有限。該模型的響應有時會出現"無休止的重複、可讀性差和語言混雜"等問題,DeepSeek 的研究人員指出。該公司創建 R1 就是為了解決這些限制。
R1 是 R1-Zero 的增強版本,採用了修改後的訓練工作流程開發。這個工作流程使用了 DeepSeek 在開發 R1-Zero 時省略的監督微調技術。該公司表示,這一改變顯著提升了輸出質量。
DeepSeek 使用近二十個基準測試將 R1 與四個流行的大語言模型進行了比較。據該公司稱,其模型在多個基準測試中成功超越了 OpenAI 的推理優化模型 o1。在 o1 得分較高的大多數基準測試中,R1 的表現僅落後不到 5%。
R1 超越 o1 的基準測試之一是 LiveCodeBench。這是一個經常更新新練習題的編程任務集合。這降低了 AI 模型在公共網路上找到現成答案的可能性。
除了 R1 和 R1-Zero,DeepSeek 今天還開源了一系列能力較弱但硬體效率更高的模型。這些模型是從 R1 "蒸餾" 而來,這意味著在訓練過程中,部分 LLM 的知識被轉移到了這些模型中。
這些蒸餾模型的規模從 15 億到 700 億參數不等。它們基於 Llama 和 Qwen 開源大語言模型系列。DeepSeek 表示,其中一個蒸餾模型 R1-Distill-Qwen-32B 在多個基準測試中的表現優於 o1 的縮小版本 OpenAI-o1-mini。