蘋果推出開源AI語言模型OpenELM 加速生成式AI發展

蘋果公司最近發布了一個開源的大型語言模型OpenELM，旨在推動生成式人工智慧技術的發展。這一模型通過Hugging Face平台公布，採用分層擴展技術，有效提高了文本生成的效率和準確性。

贊助商廣告

蘋果釋出 AI 開源大型語言模型 OpenELM

蘋果為了加速生成式 AI 領域發展，提前通過開源 AI 平台 Hugging Face 發表「OpenELM」具有開源的高效率文本生成模型家族，OpenELM採用了分層擴展（layer-wise scaling）技術策略，能在模型的每一層中有效分配參數，能讓 OpenELM 轉換器具有不同的配置與參數，近而夠提高準確性。

蘋果表示OpenELM是使用神經網路庫CoreNet作為訓練框架，並且搭配 Adam 優化演算法進行35萬次模型訓練，連同蘋果MobileOne、CVNets、MobileViT、FastVit等知名研究也同樣都是靠CoreNet完成。

OpenELM分別為4款經過預訓練以及4款針對指令優化調校過的版本，在參數規模也分成2.7億、4.5億、11億和30億四種參數，每款規模也都比起高性能模型（70億參數）要來得更小，比起微軟 Phi-3 模型 38億更小。

外媒指出，對於OpenELM訓練資料全來自維基百科、Wikiboos、Reddit、arXivx論文、StackExchange 問答，以及 GitHub 的 RedPajama 資料集、Project Gutenberg等公共資料集，總計有1.8兆 tokens 的數據進行訓練。

僅管OpenELM以開源許可證發布，並沒有過度的限制，但蘋果明確表示，任何基於 OpenELM 的衍生作品都將被視為侵犯權利，蘋果保留提出專利索賠的權利。

OpenELM 模型小、性能表現優異

蘋果分享的 OpenELM 模型特別是 4.5 億參數的變體效能表現相當優異，另外 11 億參數的 OpenELM 變體性能表現方面，也超越具備艾倫人工智慧研究所所發布的開源大型語言模型 OLMo，預訓練 token 數量減少一半，OpenELM 在性能比 OLMo 提高 2.36%。

至於 30 億參數的 OpenELM 變體，在經由 ARC-C 基準測試中，知識和推理能力準確率達到了 42.24%，且 MMLU 和 HellaSwag 得分也分別獲得 26.76% 和 73.28%。

贊助商廣告

雖然蘋果的 OpenELM 模型在 AI 領域算不上是最頂尖，在回應也被多方證實相當可靠，與人類思考邏輯幾乎一致，也能實現小參數達到超強性能。但是蘋果 AI 模型在創造力方面，OpenELM 就容易出現稍顯不足情況。

OpenELM 支持iPhone或Mac電腦獨立運作

蘋果在 OpenELM 公開說明中提到「將模型轉換為 MLX 資料庫的程式碼，以便在蘋果設備上進行推理和微調」，其中MLX是去年釋出能在蘋果晶片上運行機器學習的框架，能夠在非連網路狀態下，直接通過蘋果設備本機執行。

蘋果一直都是封閉系統領導者，如今罕見公開 AI 大模型，外界認為這有可能就類似 Google 操作方式，先通過開源拉攏開發人員，再利用封閉產品進行商業化。

如今蘋果選在 WWDC 2024 開發者大會前，對外釋出大模型用來展現將進軍 AI 領域的決心，那也代表 iOS 18 和 iPhone 16 新機將導入 AI 功能應用將成為今年最熱門的話題。