人工智慧 (AI) 的高速發展代表各種大型語言模型 (LLM) 的新版本不斷推陳出新。要充分發揮AI的潛力並掌握因此而來的機會,需要實現LLM從雲到端的廣泛部署,其中也帶動了對運算和能源需求的大幅增長。整個生態系正攜手尋找應對該挑戰的解決方案,不斷推出新的、且更高效率的開源LLM,以便大規模實現各種AI推論工作負載,加快為用戶帶來全新、快速的AI體驗。
為此,Arm與Meta展開緊密合作,在Arm CPU上激活新的Llama 3.2 LLM,集成開源創新與Arm運算平台的優勢,以應對AI帶來的挑戰。受益於Arm的持續投資及與各新型LLM的合作, 在Arm CPU上運行AI的優勢在生態系中脫穎而出,使Arm成為AI推論開發人員的首選平台。
小型LLM(如Llama 3.2 1B和3B)能夠支持基於文本的基礎生成式AI工作負載,對於大規模AI推論的實現相當重要。通過Arm CPU優化核心在Arm技術驅動的移動設備上運行新的Llama 3.2 3B LLM,可讓提示詞(Prompt)處理速度提高五倍,詞元(token)生成速度提高三倍,在生成階段實現每秒19.92個詞元。這將直接減少了在設備上處理AI工作負載的延遲,大大提升了用戶的整體體驗。此外,當邊緣端能處理的AI工作負載越多,往返雲計算傳輸數據所節省的電量就越多,進而節省了能源和成本。
除了在邊緣端運行小型模型,更大的模型(如Llama 3.2 11B和90B)也能在雲計算運行。11B和90B的模型非常適合雲計算基於CPU的推論工作負載,可生成文本和圖像,如同在Arm Neoverse V2上的測試結果顯示。在基於Arm架構的AWS Graviton4上運行11B的圖像和文本模型,可在生成階段實現每秒29.3個詞元的表現,遠遠超出人類大約每秒閱讀五個詞元的速度。
能公開獲取各個新的LLM(如Llama 3.2)相當關鍵。開源創新正以極為快速的速度發展,在之前的版本中,開源社交媒體在不到24小時的時間內便能在Arm上部署並運行新的LLM。
Arm將通過Arm Kleidi進一步支持軟體社交媒體,讓整個AI技術堆棧能夠充分發揮該經過優化的CPU性能。Kleidi可在任何AI框架上釋放Arm Cortex和Neoverse CPU的AI功能和性能,無需應用程序開發人員進行額外的集成工作。
通過最近的Kleidi與PyTorch集成以及正在推進的與ExecuTorch集成,Arm正在為基於Arm CPU的開發人員提供從雲到端的無縫AI性能。受益於Kleidi與PyTorch的集成,在基於Arm架構的AWS Graviton處理器上運行Llama 3 LLM的詞元首次回應時間加快了2.5倍。
同時,在移動設備上,通過KleidiAI函數庫的協助,使用llama.cpp函數庫在新的Arm Cortex-X925 CPU上運行Llama 3的詞元首次回應時間與參考實例相比加快了190%。
Arm表示,Arm與Meta的合作成為產業合作的新標杆,它匯聚了Arm運算平台的靈活性、普及性和AI功能,以及Meta等產業領導者的技術專長,共同釋放AI被廣泛應用的新機會。無論是利用設備端LLM滿足用戶的個性化需求,如根據用戶所在的位置、日程和偏好來執行任務,還是通過企業級應用來優化工作效率,讓用戶更專注於創造價值的任務,Arm技術的集成都為未來奠定了基礎。設備將不再只是命令和控制工具,更能在提升用戶整體體驗方面發揮積極的作用。
在Arm CPU上運行Meta最新Llama 3.2版本,其AI性能展現顯著的提升。這類開放式合作是實現無處不在的AI創新、促進AI可持續發展的最佳途徑。通過各項新的LLM、開源社交媒體和Arm的運算平台,Arm正在構建AI的未來,到2025年,將有1,000多億台基於Arm架構的設備支持AI。