宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

突破傳統算力困局,Ampere換種方式迎接AI算力挑戰

2023年09月25日 首頁 » 熱門科技

伴隨著AI技術的飛速發展,尤其大模型的出現,數據中心對AI算力需求急劇提高。而AI算力需求的激增的同時,帶來的是伺服器供電需求的飛速增長,以及為其提供製冷的冷卻系統能耗激增。

如何以高效節能的方式,滿足AI算力高速增長的AI算力需求?在ODCC舉辦的2023開放數據中心大會上,經過與Ampere的一番溝通交流,讓我們了解到一種突破傳統AI算力困局的全新解決方案。

突破傳統算力困局,Ampere換種方式迎接AI算力挑戰
Ampere Computing產品技術總監孫開本在開放數據中心大會發表演講

傳統數據中心的困局

傳統數據中心正面臨著一個常見的問題:受到供電的限制,每個機櫃中只能上架有限的幾台AI伺服器,無法實現滿櫃。目前標準的數據中心,每台機櫃內通常部署8-9台2U的伺服器。然而,這些伺服器的電力預算已經不足,導致剩下的空間無法再放置更多的伺服器。這就意味著,數據中心伺服器的部署密度只有50%到60%。因此,許多雲服務提供商面臨了部署密度不高、空間浪費等問題。

AI伺服器的部署密度則更低。例如,目前市面上常見的某款GPU卡的功耗為75瓦,一台伺服器加四張卡就是300瓦,而一台標準的通用伺服器的功耗至少也要700~900瓦。因此,對於一個電力容量為8,000瓦的機櫃,原本可以放10台通用伺服器,換成AI伺服器可能就只能放5~6台了;如果是高算力的AI伺服器,甚至只能放1~2台。針對上述挑戰,Ampere雲原生處理器正是理想的選擇。

Ampere公司推出的雲原生處理器具備先天的低功耗優勢,可以幫助實現機櫃電力與空間的更優配比,提高部署密度。對於AI伺服器,Ampere平台的功耗降低了,同時提供與其它平台相同的性能。這意味著在同樣的電力預算下,使用Ampere平台可以放置更多的AI伺服器,從而提高數據中心的部署密度。

Ampere的AI算力破局

目前,AI領域,伺服器通常採用x86架構CPU並配備GPU來滿足高計算需求。然而,隨著AI應用的不斷發展,行業也開始尋找更高效的解決方案來降低能耗和成本。

AI有兩大方面,分別是AI訓練和AI推理。目前,GPU被廣泛認為是AI訓練最合適的方案。

而在AI推理方面,目前也出現了為 AI 推理超額配置計算的情況,這可能導致高昂的成本支出(無論是硬體的單位成本,還是硬體運行的電力成本)。因此,目前行業也會考慮一些能夠大幅降低能耗的其他方案。

Ampere表示,在AI訓練的場景下,Ampere的雲原生處理器與x86架構的作用沒有區別。這意味著,在搭載最常用的GPU進行訓練時,Ampere的CPU與其他GPU一樣表現出良好的兼容性和性能。此外,Ampere表示已經確保了其平台與大多數GPU的兼容性, 目前大多數常用的GPU在Ampere平台上都得到了支持。在大會的參觀交流中,Ampere說道:「在訓練層面,我們和x86 提供的性能是一樣的,唯一的區別就是能耗,用我們英文的口號就是Less Power Is the New Power (中文:低能耗,「芯」未來)。因為大家用的都是同樣的GPU,提供的性能一樣,區別主要來自CPU。 Ampere雲原生處理器比傳統x86更節能」

突破傳統算力困局,Ampere換種方式迎接AI算力挑戰

更加適用於AI推理的Ampere

隨著AI的快速發展,大模型的應用越來越普遍。由於巨大的參數量和大量的數據處理量,大模型需要的計算資源更多,對硬體的性能要求更高,同時還需要考慮如何降低能耗、提高計算效率等問題。另外,大模型的訓練和推理也需要更加複雜和高效的網路架構和算法,這也對硬體提出了更高的要求。

對於Ampere來說,AI推理是機遇所在。在AI推理上有個「batch size」的概念,就是批量的大小。把小的工作積贊到一起,一次性給GPU處理,這是「大批量」的AI推理,通常GPU更合適。而在「小批量」的場景下,需對任務進行及時響應,通常延時要求比較高,但對吞吐量要求不高,CPU則更合適這種場景。

隨著AI熱潮來襲,Ampere的雲原生處理器解決方案也受到許多關注。從 2020 年開始,Ampere早就已經在AI領域開始布局,收購了一家專注於AI推理優化的公司OnSpecta,在模型算子、底層的指令方面進行優化。Ampere表示:「基於這種軟硬體協同優化,我們現在的AI推理基本上翻了5倍。早在兩年多前,Ampere就組建了專門的AI團隊,開展針對AI的一系列創新。」

目前,Ampere已經有許多客戶都在基於Ampere Altra系列處理器進行AI推理。針對AI的常用主流框架,比如TensorFlow、PyTorch和ONNX,Ampere進行了優化,性能得到了顯著提升。

此外,Ampere的產品不只適用於當前常見的大型語言模型,也適用於過去幾年相對舊的模型。通過Ampere雲原生處理器進行AI推理,可獲得卓越的可擴展性和性能,也打破了效率的瓶頸,而這正是令雲服務提供商(CSPs)困擾的問題,因為使用GPU會帶來極高的能耗,而且容量擴展會受到制約,可部署的伺服器數量也會受到限制。而Ampere的雲原生處理器通過提供卓越的性能和能效,恰好能夠解決這些行業痛點,尤其是對於AI推理。

更適於私域大模型的Ampere

隨著ChatGPT等大模型的普及,企業出於對安全、隱私資訊的重視,對於私域大模型的私有化部署將越來越多。然而,在部署過程中,企業必須在算力基礎設施方面進行合理的選擇。

在並發性方面,企業內部使用的大模型需要同時處理的人數可能不如公開服務,沒有大量的並發處理;在延遲方面,企業內部使用的大模型對延遲要求沒有公開服務那麼高,帶寬也沒有那麼擠兌,但對電力、數據中心資源節省很敏感。

用CPU做AI推理可以獲得諸多獨特的優勢。第一,CPU適用於批量比較小的現代應用類;第二,CPU軟體的靈活度更高,在軟體設計上更容易,因為不需要硬體,不需要第三方提供的庫,也很少有依賴性,獨立性更強;第三,使用CPU擺脫了OS驅動,因為不涉及GPU的一系列配套,複雜性也相應降低。因此,Ampere認為:「企業不必拘泥於常規慣性思維,一上來就是用GPU,應該量體裁衣,配備適度的算力,以達到更好的性能和成本效益。」

相比傳統 x86 處理器成本高、能耗大,最新的 Ampere 雲原生處理器能夠助力打造高能效、高性能的 AI 推理應用,是替代x86的理想方案,同時也是用於 AI 訓練和大語言模型(LLM)推理 GPU 的高性價比之選。相比傳統的 x86 處理器,Ampere Altra 系列雲原生處理器在 AI 推理方面擁有顯著的性能優勢:針對電腦視覺工作負載,性能最高可提升 4 倍;針對常見的 NLP 工作負載,每瓦性能最高可提升 3 倍。

注重效率,更關注可持續發展

在數據中心,可持續發展是大家長期關注的焦點之一。在今年的開放數據中心大會上,許多廠商也圍繞低碳、可持續、節能、土地資源、運營成本等問題進行了熱烈的探討。

突破傳統算力困局,Ampere換種方式迎接AI算力挑戰

在數據中心有一個「安全水位」的概念,它通常在30%的水平,再有大約20%的預留。簡單來說,這意味著如果有一個100個核的數據中心,為了保證數據中心的穩定性和性能,一般只有50個核會真正投入運行。但是,這也意味著有50%的CPU資源被閒置,閒置的背後也涉及到土地空間、運營效率等問題。

Ampere的雲原生處理器卻可以在保證性能的同時,將這個「安全水位」提高至70%,同時留下30%的緩存,從而提高利用率。Ampere舉了個例子:「比如一台機架部署了100個核,如果是普通的x86 CPU,只能用50個。而如果部署的是Ampere雲原生處理器,可以用100核。因此,機架部署就可以更滿,這就是我提到的資源利用率,這裡的『資源』包括機架和CPU既有的算力資源。」 也就是說,在同體積空間裡,基於Ampere處理器的機架不但密度更高,算力也更強。

在助力構建可持續雲計算方面,Ampere雲原生處理器基於不同的架構,兼具高性能與低能耗的綜合優勢,打破了傳統架構的限制,能夠助力數據中心實現效率提升三倍、整體占地面積減少 3 倍、單機架性能提升 2.5 倍、能耗降低 2.8 倍的優化效果。

Ampere通過其雲原生處理器技術不斷兌現其對性能和可持續性的承諾,向用戶提供環境友好的高性能系列微處理器,以可持續的方式突破能耗的限制。面對新的計算趨勢和可持續發展趨勢,讓我們且看Ampere如何引領創新,突破性能與能耗的束縛,推動行業迎接變革,邁向計算的新象限。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新