AMD自行開發開源模型,客戶能夠使用AMD硬體部署模型。通過AMD的開源數據、權重、訓練方法、程序代碼,讓開發者不僅能夠複製模型,且在模型基礎上進行創新開發。
AMD近日發布一系列完全開源的10億參數(1B)語言模型OLMo,這款在AMD Instinct MI250 GPU從頭開始訓練,可應用於各種應用程序。OLMo除數據中心使用外,更支持配備NPU(Neural Processing Unit,神經處理單元)的AMD Ryzen AI PC能夠部署模型,使開發者能在個人設備提供AI功能。
OLMo在16個節點上使用1.3兆token進行預訓練,每個節點配備4個AMD Instinct MI250 GPU(總共64個處理器),以三階段完成OLMo訓練。
AMD OLMo訓練三階段。(Source:AMD)
AMD測試下,OLMo在一般推理能力和多任務理解的基準測試中,與類似大小的開源模型(如TinyLlama-1.1B、MobiLLaMA-1B、OpenELM-1_1B等)相比,表現出令人印象深刻的性能。
針對一般推理能力和多任務理解的基準測試結果。(Source:AMD)
兩階段SFT(Supervised Fine-tuning)模型的準確性顯著提升,MMLU分數提高5.09%,GSM8k分數提高15.32%,顯示AMD訓練方法帶來的影響。最終AMD OLMo 1B SFT DPO模型在基準測試平均優於其他開源模型至少2.60%。
談到OLMo在對話基準上的指令調整結果,特別是將OLMo 1B SFT和OLMo 1B SFT DPO模型與其他指令調整模型進行比較,在AlpacaEval 2勝率中OLMo表現優於競爭對手3.41%,AlpacaEval 2 LC勝率則優於2.29%。此外,在衡量多回合對話功能的MT-Bench測試,OLMo 1B SFT DPO比最接近的競爭對手多0.97%的性能提升。
預訓練和微調模型的能力有助於集成特定領域知識,隨著客戶對定製化AI解決方案的需求持續增加,預訓練模型的能力為產業創新和產品差異化帶來更多機會。而OLMo新模型的推出,有助於提升AMD在AI產業地位。
(首圖來源:AMD)