宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

能效和定製化將推動ARM在人工智慧領域發揮關鍵作用

2024年04月18日 首頁 » 熱門科技

十多年前,Arm的高管看到數據中心能源成本飆升,意識到有機會擴展其同名片上系統的低功耗架構,這個系統從一開始就主導了移動電話市場並占領了嵌入式設備市場,從PowerPC進入企業伺服器。

這是為了打造功耗更低、更便宜、且更具延展性的英特爾Xeon和AMD Epyc CPU的替代品。

Arm公司花了多年的時間來開發這個架構,因為一些早期的Arm伺服器處理器供應商倒閉或放棄其計劃而倍感失望,同時也付出了巨大的努力來開發軟體生態系統,不過現在,Arm已經在本地系統和雲數據中心站穩了腳跟。

Arm在公布2月份最新季度財報的時候特別提到了自己平台化的市場策略,指出在2016年Arm的收入中至少有三分之二是來自移動領域的通用CPU。現在,Arm已經擁有針對多個市場的平台,包括雲和網路系統,並在高性能計算領域取得了不錯的成績,富士通的A64FX處理器就是基於Armv8.2-A架構的,為代號Fugaku的系統提供支持,這個是最近Top500榜單中位列第四的超級電腦。

能效和定製化將推動ARM在人工智慧領域發揮關鍵作用

隨著AI的興起,Arm公司首席執行官Rene Haas也看到了其中的機會。Haas表示,模型現在消耗了大量的電力,未來只會有增無減。

他說:「我花了很多時間與這些公司的CEO交談,電力問題一直是每個人最關心的問題,他們都在尋找不同的方法來解決這個問題,因為我們認為,AI可以帶來的一切好處都是相當巨大的。為了獲得越來越多的智能、更好的模型、更好的預測性、添加上下文、學習能力等等,這對計算的需求不斷增加,顯然也會推動對電力的需求。在過去的幾個月里,我們在生成式AI,特別是所有這些複雜的工作負載中看到的一切,感覺都是在加快速度的。」

Haas表示,Arm參與了美日聯合資助的AI研究計劃,該計劃規模達到1.1億美金,其中Arm為計劃貢獻了2500萬美金。Arm將在控制功耗和相關成本方面發揮核心作用。Arm已經證明,其架構可以使數據中心的能源效率提高15%。他說,這些類型的節約也可以轉化為AI工作負載。

Haas指出,目前現代數據中心每年要消耗約460太瓦時的電力,到2030年,這一數字可能會增加兩倍。他表示,數據中心目前消耗的電力約占全球電力需求的4%,如果不加以控制,這一比例可能會上升至25%。

這也是有代價的。在斯坦福大學最新的AI指數報告中,研究人員寫道,「訓練這些巨型模型的成本呈現出指數級的增長」,並指出,谷歌的Gemini Ultra訓練成本約為1.91億美元,OpenAI的GPT-4的訓練成本估計為7800萬美元。相比之下,「最初的Transformer模型引入了幾乎所有現代大型語言模型的基礎架構,成本約為900美元」。

能效和定製化將推動ARM在人工智慧領域發揮關鍵作用

Haas說,這些成本只會有增無減。OpenAI和Google等AI公司致力於實現通用型人工智慧(AGI),即AI系統可以像人類一樣或更好地進行推理、思考、學習和執行,這將需要更大的、更複雜的模型,需要輸入更多數據,這些都會增加功耗。

「GPT-3和GPT-4相比有多麼複雜,GPT-4需要十倍的數據、更大的尺寸、更長的token等等。但就其完成令人驚嘆的事情這個能力而言,包括思考、背景和判斷,仍然是相當有限的。模型需要不斷進化,並且在某種程度上,需要在數據集方面變得更加複雜。除非你進行越來越多的訓練,否則是無法真正做到這一點的。這是良性的循環。為了變得更聰明、將其從模型中推進並進行更多研究,你只需要進行越來越多的訓練即可。在接下來的幾年裡,推進這種訓練所需的計算量將會非常多,而且相對於你運行模型的方式來說,感覺不會有任何重大的根本性變化。」

最近幾周,Arm、英特爾和Nvidia相繼推出了新的平台,旨在滿足日益增長的AI功率需求,包括在邊緣進行更多模型訓練和推理、而邊緣數據的生成和存儲越來越多所帶來的壓力。Arm本月推出了Ethos-U85神經處理單元(NPU),承諾比前代產品性能提高4倍,能效提高20%。

同一天,英特爾推出了Gaudi 3 AI加速器和Xeon 6 CPU,首席執行官Pat Gelsinger認為,該晶片的功能和開放系統的策略將按照英特爾的方式推動AI工作負載的發展。Haas不太確定,他說「英特爾和AMD可能很難做到,因為他們只是在構建標準化的產品,以及打造一個插入了連接到英特爾或AMD CPU的Nvidia H100加速器這個偉大想法。」

Haas表示,對數據中心效率的更高需求也推動了定製晶片這一發展趨勢,他指出,大多數晶片都是採用Arm的Neoverse架構構建的,包括亞馬遜的Graviton處理器、谷歌雲的Axion、微軟Azure的Cobalt和Oracle Cloud的Ampere,所有這些不僅可以提高性能和效率,還可以提高AI工作負載所需的集成。

「現在,你基本上可以針對數據中心打造一種AI自定義部署方式,以幾乎任何你想要從中獲得巨大性能的方式對其進行配置,這些定製晶片是我們前進發展的機會。」

能效和定製化將推動ARM在人工智慧領域發揮關鍵作用

他提到了Nvidia上個月推出專用於AI的Grace Blackwell GB200加速器,其中包括2個Nvidia B200 Tensor Core GPU,通過900 GB/s NVLink互連連接到基於Arm的Grace CPU。

Haas說:「在某種程度上,Grace-Blackwell是一款定製晶片,因為之前的H1 100基本上是插入機架並與X86處理器相連的。現在Grace-Blackwell已經高度集成到使用Arm的產品中。Arm將成為其中的核心,因為Arm所實現的集成水平以及定製能力,將真正能夠優化最高效的工作負載類型。以Grace-Blackwell為例,在該架構中,通過在NVLink上使用CPU和GPU,你可以開始解決有關內存帶寬的一些關鍵問題,因為最終這些巨型模型需要大量的內存訪問才能運行推理。」

他表示,與大型語言模型中的H100 GPU相比,Arm架構實現的系統級設計優化有助於將功耗降低25倍,並將每個GPU的性能提高30倍。在AI時代,這種定製是必要的,因為創新和採用的步伐只會加快而不會停下。

「在某種程度上,我們整個行業面臨的挑戰之一就是,雖然這些基礎模型變得越來越智能,而且創新的步伐非常快,但開發新晶片是需要一定時間的,建立新的數據中心也需要一定的時間,建立新的配電能力需要大量的時間。確保能夠以儘可能多的靈活性來設計晶片,這是一項非常艱巨的任務,但眼下這正在發生,正在以令人難以置信的速度發生。」

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新