
微軟公司日前發布了Phi-4的代碼。Phi-4是一個可以生成文本並解決數學問題的小型語言模型。
微軟上個月首次詳細介紹了Phi-4模型。最初的Phi-4隻能通過微軟的Azure Foundry人工智慧開發服務訪問。現在,Phi-4模型可以從Hugging Face下載。Hugging Face是一個託管開源人工智慧項目的熱門網站。
Phi-4是微軟於2023年推出的小型語言模型系列的第四代版本,擁有140億個參數,這些參數設定決定了神經網路如何處理數據。微軟的研究人員利用英偉達公司提供的1,920塊H100圖形處理器集群,花了21天訓練Phi-4。
Phi-4模型基於行業標準的 Transformer 架構。Transformer架構是大多數大型語言模型的基礎。Transformer 模型收到用戶提示後會將輸入分解為單個單詞,並通過分析上下文的文本確定每個單詞的含義。這種模型還會優先處理上下文文本中被認為最相關的部分。
Phi-4採用的是所謂純解碼器的Transformer架構變體。標準的Transformer模型會分析單詞前後的文本來確定其含義。純解碼器模型則只關注單詞之前的文本,從而減少了需要處理的數據量,降低了推理成本。
微軟在一份研究論文中詳細介紹了如何使用兩種後訓練優化技術提升Phi-4的輸出質量。這兩種方法分別被稱為直接偏好優化和監督微調。兩種方法都需要向語言模型提供示例,用於指導模型如何生成符合要求的即時響應。
微軟在一次內部評估中將Phi-4與Llama 3.3 70B 進行了比較,後者的參數是Phi-4的五倍。微軟表示,在常用的GPQA和MATH基準測試中,Phi-4的表現更好。GPQA和MATH兩個測試數據集分別包含科學問題和數學問題。
在過去一年中,各大科技公司爭相開源了越來越多的小型語言模型,Phi-4 也正式加入了這一行列。
谷歌公司去年二月推出了一系列名為 Gemma 的小型語言模型。Gemma系列模型的算法擁有20億到270億個參數。谷歌表示,270億個參數的Gemma版本在性能上優於參數數量是其兩倍的模型。
Meta Platforms 公司最近發布了兩個參數少於 50 億 Llama 3.2 模型。隨後,Meta又開源了這些模型的更高效版本,這些版本實現了機器學習里的量化技術。量化技術可以壓縮神經網路獲取的數據,減少處理數據所需的硬體數量。