宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

用AI重新定義通信,超算網際網路時代的調度與調優

2023年11月07日 首頁 » 熱門科技

1.AI 超算網際網路——算力的後周期市場

當下,隨著大模型訓練的興起,全球顯卡與算力正在進入一段時間的快速膨脹期,國內外均欲打造 AI 超算網際網路。與此同時,算力後周期市場也正在快速興起。「後周期」中的後,與傳統市場中的行業末期、行業後期不同,「後」指的更多的是後服務市場,我們認為的後服務,包括了顯卡伺服器到貨 IDC 後,從形成穩定算力到輸出穩定的商業推理結果的全過程。其中主要的環節包括了雲化、調優、調度、部署、落地、數據管理等等軟硬結合的數個環節,參與其中的既包括全球一線大廠,也包括許多海外優秀的創業公司。

算力的後周期的市場需求迸發,我們認為核心原因在於大模型訓練的難、大模型商用的貴以及大模型安全的憂。大模型訓練的難在於,超大規模的參數和運算量遠超單張或者單伺服器顯卡的容量,各個顯卡之間如何實現數據並行與運算合作,是整個業界面臨的首要問題,為此,誕生出了雲化、調優、調度等後周期需求。大模型商用的貴體現在參數、效果、費用三者的矛盾之上,參數越多的模型,其對於實際問題的準確度越高,但其反應時間和消耗費用也越高,同時,如何將新疊代的模型快速部署至應用場景,也是開發者需要面臨的問題。大模型安全的憂則更多的體現在數據層面,如何實現安全情況 下,企業原有資料庫與訓練系統的相互調用,如何實現原有數據對於「AI」訓練的可用等等。 縱觀全球算力後周期的發展態勢,我們認為正在形成兩個迥然不同的生態,首先,在涉及算力使用和大模型訓練的等上層建築時,整個行業對於資本支出、模型經驗積累等等方面的壁壘正在逐漸加深,正如黃仁勛在發布會上經常提到的「buy more save more」, 大模型時代,天量資本支出已經成為這一領域的入場券,模型研究從「巧奪天工」到「重 劍無鋒」的轉變,使得大算力,大模型的壁壘不斷提高,行業格局加速走向巨頭通吃。

但在涉及到商業落地,數據安全,平台可視化等等模型偏下游環節時,我們反而從北美的創業公司上看到了百花齊放的生態,在訓練過程與資源可視化,資料庫調用,模型加速部署與性價比調節等方面,都湧現出了一批優秀的創業公司與解決方案,同時原有領域內的龍頭軟體公司也在積極開發方案,對接 AI 需求。與大模型和算力戰爭中的巨頭壟斷局面相比,這裡的各個環節更加富有生機,也更容易在細分環節中成長出新的優秀獨角獸公司。

最後,復盤海外前沿,展望國內發展,我們認為隨著國內算力資源起量與模型訓練深入,對於算力和模型層面的投資將會再度聚焦,聚焦大廠,聚焦通信能力。同時國內相關軟體市場仍處於萌芽階段,對標海外優秀創業產品,提早滿足客戶需求,將給國內軟體和創業公司帶來新一輪機會。同時,國內由於海外算力制裁等影響,國內如昇騰等中國優秀生態發展和起量過程中,可能也會湧現出一批優秀的行業加速庫、生態軟體公司,基於此再擴展出中國特色的相關模型服務體系,有望走出一條有中國特色的模型服務體系之路。

2。雲化/調優/調度——巨頭戰場,技術為骨,通信為魂

2.1 算力雲化:算力租賃勢起,被 AI 重定義的雲計算

2.1.1AGI 時代到來,GPU 算力需求爆發,雲計算面臨新挑戰

雲計算是科技行業過去十年發展最為迅速的領域之一,伴隨的是全球數字化程度的持續提升。網際網路的高速發展,眾多中小型及初創公司數字化需求爆發,通過自購 ICT 基礎設施的形式支出巨且運維難度高,不適合具有靈活需求高速發展的長尾客戶。而通過雲計算,使用者可以隨時獲取雲上資源,按需使用按需付費,可無限擴展。雲計算將計算資源池化,通過軟體實現自動化管理,讓資源高效輸出,並發展出 IAAS、PAAS、SAAS 以及其他眾多形式,極大的促進了網際網路發展和全球數字化進程。

用AI重新定義通信,超算網際網路時代的調度與調優

生成式 AI 興起,算力需求從 CPU 向 GPU 躍遷。隨著 openai 旗下 chatgpt 的湧現,在全球範圍內引爆了生成式 AI 的發展浪潮,作為下一代最重要的技術方向,企業人工智慧發展需求正在爆發,擁有能夠支持開發人員創建新一波人工智慧應用程序需求的基礎設施至關重要。許多企業正在轉向雲計算,但與主流企業工作負載不同,人工智慧提出了傳統雲基礎設施無法充分支持的新需求。從 CPU 到 GPU 再到 GPU 集群,企業發現自己正在採用越來越複雜的基礎設施來滿足其人工智慧模型訓練的需求。

大模型持續發展,高速互聯高性能 GPU 集群是門檻。以 openai 為例,其 gpt3 具有 1750 億個參數,是上一代版本的 117 倍,模型的持續發展疊代需要前所未有的規模,而對於大模型訓練而言,多 GPU 互聯基礎設施是門檻,不僅僅是 gpu,更重要的是 gpu 之間的高速互聯,是 gpu 與交換機、光模塊等基礎設施共同互聯後的集群,其資本開支和技術難度相較於以 cpu 和存儲伺服器為主的傳統基礎設施,有明顯的提升,這也進一步抬高了大模型的門檻。

大模型訓練需要數千片甚至上萬片 GPU 集群連續訓練數月時間,海量計算的同時還有海量數據交換需求,與傳統 cpu 和存儲集群比較,內部通信互聯要求提高十分明顯。在傳統雲計算時代,只有超大型數據中心核心節點才會用到高速光模塊和高端交換機,如 400G 和對應光模塊,而在超算集群中,以 H100 集群為例,其中第一層便使用 400G 光 模塊,向上則使用 800G 光模塊和對應交換機,網路互聯要求提升十分明顯。

AI 雲計算對應能力要求全面提升。雲服務能力對於致力於布局 AGI 的企業而言,傳統的雲基礎設施即服務產品並沒有針對企業規模的人工智慧進行優化,隨著基礎設施的日益複雜,宕機的風險也越來越大,需要花費越來越多的精力和資源在維持運行上,開發企業人工智慧不僅需要基礎設施服務,更需要的是全棧能力,人工智慧企業需要將所有這些功能集成到他們的平台中,從而避免與基礎設施的作鬥爭:

1、用於開發和部署特定於領域的端到端人工智慧工作流的框架和工具——從數據準備和訓練到推理和部署。2、一個以開發人員為中心的平台,用於管理從最簡單的電腦視覺應用程序到最複雜的大型語言模型的一切。3、智能編排層和調度程序,為每個作業提供適當大小的資源,動態高效地回收和重新分配資源。4、自動化的基礎設施管理,最大限度地提高了平台的性能和正常運行時間,使每項工作 都可以無憂地執行。5、超高帶寬、低延遲的網路集群,專門用於多節點訓練,可以在許多加速計算節點上並行處理大型人工智慧模型。

2.1.2DGX Cloud 發布,雲算力進入 GPU 新時代

2023 年 3 月 21 日,英偉達正式發布了 DGX Cloud,這款多節點 AI 訓練即服務解決方案,針對企業 AI 的獨特需求進行了優化。英偉達表示,DGX Cloud 將改變傳統的計算框架,為現代深度學習提供理想的環境。英偉達一直處於 AI 技術的前沿,其 DGX Cloud 將人工智慧和雲計算結合,旨在為企業提供最先進的 AI 訓練服務。該平台基於 NVIDIA DGX SuperPOD 架構,可進行分布式訓練,其速度是不支持 NVIDIA 網路的服務的兩倍以上。

DGX Cloud 由 Base Command 平台提供支持,Base Command 是一個全面的 AI 工作流管理 SaaS,涵蓋雲和內部資源,這個平台可以幫助 AI 開發人員更有效地構建、部署和管理 AI 應用。通過將 Base Command 與 DGX Cloud 相結合,企業可以更靈活地滿足其獨特的 AI 需求。對於希望構建自定義生成式 AI 模型的企業來說,DGX Cloud 提供了完整的 AI 開發環境,包括訓練、優化和部署等環節,降低了 AI 開發的門檻,同時也極大地提高了開發效率。英偉達 DGX Cloud 為現代 AI 開發樹立了新的標杆。DGX Cloud 是世界上第一個專門用於開發生成式人工智慧的人工智慧平,英偉達推出 DGX Cloud 專門針對了傳統 laaS 產品在 AI 時代面臨的困境,根據英偉達官網表述,DGX Cloud 的使用效率是傳統基礎設施的三倍,其集成了 NVIDIA 基礎命令平台,簡化了人工智慧開發。Base Command Platform 有效地配置和管理人工智慧工作負載,提供集成的數據集管理,並在從單個 GPU 到大規模多節點集群的適當大小的資源上執行它們。DGX Cloud 還包括 NVIDIA AI Enterprise,它提供加速的數據科學庫、優化的框架和預訓練的模型,使開發人員能夠更快地獲得生產就緒的模型。

DGX Cloud 全面領先傳統 IaaS。DGX Cloud 基於領先的 NVIDIA DGX 技術,這是一個加速每個行業創新的解決方案。藉助 DGX Cloud,企業可以專注於人工智慧創新,而不用糾結於基礎設施,企業可獲得到可靠、快速的資源分配、完全優化的執行工作負載以及更少的時間精力,從而降低總體擁有成本。根據英偉達官網給出的比較,DGX Cloud 相比較傳統 IssS 服務,有著 2-3 倍的訓練速度,通過算力調優有三倍的 GPU 利用率。

用AI重新定義通信,超算網際網路時代的調度與調優

以 GPT-3 為例,其具有 400 億個參數和 3000 億個 token,訓練 GPT-3 大約需要 160 塊 NVIDIA A100 gpu 訓練約一個月。從比較上來看,選擇 DGX Cloud 的企業訓練速度將是傳統 IaaS 的 2-3 倍,僅需約一個月的時間僅可完成模型訓練,若升級採用 DGX Cloud H100 則僅需 20 天,而傳統 IaaS 則需要超過 3 個月時間。DGX Cloud 能夠幫助企業快速疊代模型,降低成本的同時搶占先機。

英偉達 DGX Cloud 發布後,標誌著英偉達正式入局 AI 雲計算,考慮到英偉達 GPU 在 AI 領域的一家獨大,雲計算行業正在進入新的時代。與此同時,甲骨文通過與英偉達深度綁定,正在越來越多的拿下 AI 領域的客戶,而亞馬遜 aws、微軟 azure、谷歌云為代表的頭部公有雲也正在加速布局 AI 領域,英偉達憑藉自身優勢在 AI 雲計算領域領先眾對手,雲計算格局正在發生變化。而國內,算力租賃也在高速發展,擁有算力資源的公司和具備算力運營能力的企業正在逐漸體現出相應優勢,伴隨國內 AI 產業的高速發展,算力租賃行業也進入高速發展階段。

2.1.3GPU VS 比特幣礦機——爆發的需求、緊缺的供給和極短的回款周期

算力行業正處於茁壯成長期,眾多企業「各顯神通」參與其中。我們認為,算力租賃生態鏈還遠未到格局固化的階段,可以積極關注新進入者。

利通電子:算力租賃新「玩家」。公司此前披露已訂購 255 台 GPU 伺服器,近期公司表示,DGX 伺服器已批量到貨,預計 10 月全部完成交付。

中科金財:算力租賃 AI 應用雙布局。公司 9 月公告擬 2 億元投資設立全資子公司,主營算力租賃、AI 應用生態服務等 AGI 業務。

東方材料:算力調度平台匯聚全國分布式算力群。子公司東方超算的「銀河」算力調度平台聯合 13 家 IDC 打造全國一體化算力集群,現已提供基於英偉達 A100、A800、H800、華為 910B 等 GPU 算力服務,面向全國政企用戶提供現貨算力資源服務。

2.1.4 現狀:GPU 禁令,中國算力進程加速,合理分配利用資源重要性突顯

高端人工智慧晶片被禁售。根據英偉達 2023 年 10 月 23 日提交給 SEC 的 8-K 文件,美國政府通知英偉達,題為「實施附加出口管制:某些先進計算項目;超級電腦和半導體最終用途;更新和更正」,適用於「總處理性能」為 4800 或更高並為數據中心設計或銷售的產品,立即生效。本次影響的公司產品有:A100、A800、H100、H800 和 L40S。這些產品在 10 月 17 日被要求將於 30 天后限制出售。

美國實體清單更新,無理加強對我國先進晶片限制。BIS 將 13 家實體添加單實體清單中,其中包括壁仞高科技和摩爾線程兩家涉及先進計算晶片開發的中國實體及其子公司,這些實體還將受到使用美國技術生產的海外產品的限制。代工廠為這些列出的各方生產晶片將需要 BIS 許可證,然後代工廠才能將此類晶片發送給這些實體或代表這些實體行事的各方。被新列入實體清單的 13 家實體包括壁仞科技及其子公司、摩爾線程及其子公司、光線雲(杭州)科技有限公司、超燃半導體(南京)有限公司,實體清單新規的生效日期為 2023 年 10 月 17 日。

算力中國進程提速。國內人工產業發展如火如荼,但隨著高端算力晶片禁令的立即生效,包括英偉達、AMD、intel 在內的眾多 AI 晶片均將無法購買,算力作為最核心的基本戰備物資,其中國進程必然將加速。目前來看華為、寒武紀、海光、壁仞、摩爾線程等均中國算力晶片商業化和生態建設有望加速,此前科大訊飛曾表示已與華為昇騰啟動專項攻關,合力打造通用人工智慧新底座,當前華為昇騰 910B 能力已經基本做到可對標英偉達 A100。

目前雲計算形式獲取被限 AI 算力仍被允許。儘管市場擔心美國有可能禁止我國通過企業訪問 AWS、Azure、谷歌雲等在內的公有雲獲取 AI 算力資源,但截止到本報告發出日期為止,尚未有正式文件發布,AWS、Azure 等雲計算仍對中國地區開放如 nvda A100 gpu 等產品的雲服務購買權限,用戶可通過其部署在全球各地的雲計算資源來選擇需要 的雲服務滿足自身需求。

現貨 AI 伺服器持續漲價,合理分配利用資源重要性突顯。禁令落地生效後,AI 伺服器短期確定性漲價,渠道及第三方、個人等屯貨的 AI 伺服器產品數量不容小覷。在被禁大背景下,如何利用好這些零散分布在各種渠道的現貨 AI 伺服器成為一個現實問題,若能統籌規劃,則將大大緩解產業算力困境。此外消費級顯卡如 rtx 4090 也有著不錯性能,若能將長尾消費級顯卡利用在如推理測等要求較低的場景,也能緩解部分算力需求。

2.1.5 跨區域、跨集群、跨架構的算力調度調優能力日益重要

在大規模訓練上,和傳統雲計算比較,需要考慮的問題更加複雜。首先,面對單卡無法裝載的大模型,如何利用多卡來突破內存限制的瓶頸是個問題。其次,大規模訓練會用到大量的計算資源,大量計算資源間如何通信、協作是另一個難題。最後,如何平衡各類層出不窮的大規模訓練技術,使得眾多技術形成一個完整高效的訓練方案,更是系統性工程。我們將大規模訓練技術面臨的挑戰分為四個部分:內存、通訊、計算和調優。

用AI重新定義通信,超算網際網路時代的調度與調優

內存牆(GPU Memory Wall):在計算過程中,神經網路模型每一層的卷積或者全連接計算,都會把權重 W_m 長期保存下來,用作網路的權重參數更新(靜態內存)。另外針對諸如 ADAM 的優化器,會存儲優化器的動量等資訊,用於優化器計算(動態內存)。一塊有 16G 顯存的 AI 晶片,最大能塞滿 20 億參數的模型,但是這時候已經沒有額外空間,留給動態內存進行分配了。靜態內存和動態內存都可能造成內存牆的問題。

通訊牆:大模型通過模型並行、流水線並行切分到 AI 集群後,通訊便成了主要的性能瓶頸。隨著機器規模的擴大,基於同步的 All Reduce 通訊聚合方式,會因為大量的 AI 晶片和伺服器之間頻繁進行同步,出現水桶效應,也就是最慢的一路通訊,將會決定整個 AI 集群的通訊的高度。如果採用目前比較流行的 Ring-All Reduce 的通信聚合方式,當通訊的環越大,通訊的延長將會不斷地被擴大。另外網路協議的多次握手的方式,諸如此類的開銷會導致訓練無法有效利用帶寬。

性能牆:性能牆呢主要是指計算資源利用率的問題。隨著大模型的提出,對算力需求更加迫切,理論上在 4K 的集群上每塊卡快 1 分鐘,總體就快了 68 個小時。大模型會增加對算力的需求,但是隨著大模型引入各項分布式並行技術的同時,會降低計算資源的利用率。

調優牆:所以在數千節點的集群上,需要考慮到提升算法工程師分布式調試調優的效率,另外還要考慮降低工程師對大模型進行並行切分的難度。除了對人的考慮,還要對硬體集群的管理,需要保證計算的正確性、性能、可用性。要是有一台機器壞了,如何快速恢復訓練中的參數。

總結來看,現階段大模型訓練上,最核心的兩個要素分別是數據和算力,過去 AI 的發展方向聚焦在用少量的數據和參數做出模型,而隨著 openAI 現象級產品爆發後,人們發現用海量的數據和算力訓練出來的模型能力有了質的飛躍,當前大模型還處在早期階段,現階段模型參數和算力需求依舊有這極大的提升空間,因此我們判斷,在很長一段時間,不斷地提高參數量和提升算力集群規模,是大模型發展的主要思路,通過「大力出奇蹟」的形式反而更容易訓練出高質量大模型。我們以百度為例,為了支撐超大規模的這張 AIPod 網路,百度選擇了 3 層無收斂的 CLOS 組網結構。伺服器在最下面,連接到 Leaf 層交換機,也就是圖裡的 LF,然後 Leaf 交換再通過 Spine 交換機連接起來,就是圖裡的 SP。最後 Spine 交換機再通過 SuperSpine,也就是 SSP 互聯起來。根據百度的數據,平均單 GPU 的 All Reduce 帶寬有 5GB/s 的時候,大規模分布式的整體加速比只有 70%。想要獲得 90%的加速比,單 GPU 的 All Reduce 帶寬則需要做到 20GB/s,相當於單 GPU 跑滿 400G 網卡。

百度 AIPod 網路採用了 8 通道的架構。每個伺服器上的 8 個網口,對應 8 個 GPU,分別連接 8 個不同的 Leaf 交換機。這 8 個 Leaf 交換機一組,構成了一個匯聚組 Group。這樣的一個匯聚組下最大可以有 512 張 GPU。進一步,8 個 Leaf 交換機再往上連入不同的 8 個通道,每個通道內 Spine 交換機和 Leaf 交換機之間做 fullmesh 全互聯。這樣的一個集群最大可以支持超過 16K GPU。

雖然主要的通信發生在同一個通道內,但總還是會存在跨通道的通信。百度通過 SuperSpine 把不同的通道的 Spine 交換機連接起來,打通各個通道。這就是 AIPod 的組網方式。AIPod 的網路採用了無收斂,或者說收斂比為 1:1 的方案,交換機的上聯帶寬等於下聯帶寬,確保集群內互通帶寬充足。為了儘可能支撐更大的規模,百度在選擇交換機的時候,會選用當前頂級容量的交換晶片,比如曾經的 12.8T 或者 25.6T 晶片,現在已經演進到了單晶片 51.2T 的交換機。

AI 算力全球龍頭英偉達的通信之路。英偉達作為全球 GPU 領軍企業,早在十年前就開始布局 AI 領域,對 AI 發展有著深刻思考和理解。我們回顧英偉達超算方案,從 DGX A100 到 DGX H100,再到最新的 DGX GH200,我們可以清楚的看到,除了 GPU 晶片計算能力的提升以外,通信能力的大幅度持續增長,是另一個最明顯的變化。在 AI 領域, 通信的作用不亞於計算,通信能力的不足或確實將直接限制 GPU 晶片計算能力的發揮,英偉達早在 2019 年收購網路交換公司 Mellanox,加碼布局數據中心網路交換領域,充分體現英偉達的超前眼光和對於通信的重視。

我們以 GH200 為例,NVlink 雙向寬帶 900GB/s,單向寬帶 450GB/s,8 張卡即 3.6Tbps,總帶寬28.8Tbps,分攤到三個NVlink Switch,單個NVlink Switch的上下行帶寬為9.6Tbps,對應 800G 光模塊為 9.6T/800g*2=24 只,一台伺服器共有 72 只 800G 光模塊,GPU 與 800G 光模塊比例為 1:9。而此前 DGX H100 架構 GPU 與 800G 光模塊比例約為 1:3,DGX A100 則主要以 400G 光模塊為主。從英偉達產品的疊代來看,我們也清晰的看到算力龍頭在通信上的持續發力,通信匹配計算能力的提升將會一直演繹。

打破通信牆,是目前高效發揮算力集群能力的無二之選。集群中顯卡數量的增長,對應算力若不能匹配線性提升,則無法發揮出高價買入的 GPU 能力。當前,最佳的發揮集群中 GPU 能力的方式,便是打破通信強,通過更高速率的互聯,允許萬卡規模集群中跨 GPU 之間的數據交換,保證數據交換不出現阻塞,可以說,通信能力的提高,是當前最高效的「調優」方式,再出色的調度和調優,也比不上廣泛使用高性能交換機和高端高速率光模塊修建的集群內部「高速公路」。次外,目前跨架構、跨集群的算力調度也是現實問題,英偉達不同代際產品之間並不能混合組網,而不同數據中心之間的算力調度難度也不小。東數西算等跨區域算力調度需求也正在增長。具體到模型訓練層面,調優也是一個重要方面。

2.1.6 從比特幣算力演變看 AI 算力發展

1)根源:都有增長的內驅力

在過去的十年中,抖音、小紅書等平台大幅降低了內容創作、分享的壁壘,UGC 模式的內容豐富程度和規模遠超過往。而當前無論是帶貨直播還是內容創作,門檻均比之前有所提高,UGC 也「卷」了起來。而當 AIGC 來臨時,內容競爭又將升維,例如數字虛擬人將實現包括外形、聲紋、對話內容的模擬,我們看到的很多內容將是 AI 生成,作為個體需要保證自身的內容生產、進化速度快於行業均值,背後的算力投入將首當其衝,否則將直接影響賬號盈利能力。我們認為,市場忽略了算力的競爭性,考慮商業因素,算力生意存在分子與分母端。對比特幣挖礦而言,其分子是個體的算力,分母是全網算力,個體礦工能挖得的比特幣數量取決於其自身算力占全網算力的比例。而對 AIGC 而言,其能獲得的用戶注意力的分子是個體算力驅動下的內容生產能力,分母是全網的內容膨脹速度。從 UGC 到 AIGC 的升維中,誰的內容生產力提升更快,誰就能獲得更多商業利益,因此產業自驅之下,市場將追求更高的算力、更優的模型算法、更高功耗比的網路架構以及更便宜的電力。

2)需求端:都增長迅猛

根據 BitInfoCharts,2023 年 10 月 31 日比特幣全網日平均算力達 476.73EH/s,相比 2009 年全網算力 5MH/s 上下波動,14 年時間,比特幣算力增長超過 89 萬億倍。AI 這端,在 ChatGPT 引發 AI 浪潮後,國內大模型也開始於 3、4 月份密集發布,自研 AI 大模型進入「百花齊放」階段,而大模型的湧現開啟了算力「軍備賽」。根據 OpenAI 測算,自 2012 年至 2018 年,用於訓練 AI 所需要的算力大約每隔 3-4 個月翻倍,總共增長了 30 萬倍(而摩爾定律在相同時間只有 7 倍的增長),每年頭部訓練模型所需算力增長幅度高達 10 倍,整體呈現指數級上漲。舉例來說,AI 大模型所需算力與模型參數及模型訓練使用的數據量正相關。2017 年以來,AIGC 模型的參數量逐年增加,2021 年以來,這一趨勢呈現出明顯加快的狀態,從 ELMo 的 9400 萬個參數一路飆升,至 2020 年年中,GPT-3 引領行業走入千億參數時代,參數達 1750 億個,截至 2021 年年中,英偉達大語言模型 MT-NLG 更是超過了 5300 億。

3)業態:都在從個體戶走向集中化與雲化

從 2009 年 1 月中本聰使用多核 CPU 挖出比特幣創世區塊,到液冷礦機面市,比特幣礦 機的發展經歷了一個短暫而迅速的發展歷程。對比特幣挖礦而言,個體礦工能挖得的比特幣數量取決於其自身算力所占全網算力的比例。隨著全網算力持續增長,比特幣產出競爭逐漸成為晶片性能競爭,算力競爭推動礦機技術和挖礦模式產生變革。

晶片更專業:比特幣挖礦最初用 CPU,後來用計算能力更強的 GPU,後來用 FPGA,目前用更專業的 ASIC 礦機。

集中化與雲化:挖礦模式方面,最初的礦工個人挖礦逐漸被礦場、礦池、雲挖礦的方式取代。

礦場:將大量礦機在物理上集中起來,共同運維管理。礦場負責尋找優質電力資源、通過風冷、液冷等方式為礦機散熱、檢測有無礦機宕機。

礦池:突破了地理位置的限制,將分散在全球的礦工及礦場算力聯結,雲端合作「挖礦」。

雲挖礦:雲挖礦服務提供商在雲端向散戶出租算力。

用AI重新定義通信,超算網際網路時代的調度與調優

與比特幣挖礦相比,AI 雲算力發展也經歷了類似過程。

晶片更專業、計算能力更強:2012 年,多倫多大學的研究人員 Alex Krizhevsky 在 ImageNet 電腦視覺挑戰賽中,首次使用 GPU 驅動的深度學習網路擊敗其他競爭對手。由此,在深度學習算法中使用 GPU 驅動逐漸變為主流,各大廠商開始使用 GPU 訓練神經網路模型。我們統計了部分英偉達有代表性的顯卡,發現 2017 年以來,2022 年 3 月面世的 H100 較 2017 年 3 月推出的 GTX 1080ti,在單精度(FP32)上,是後者的 12 倍(134/11.34),在 AIGC 常用的雙精度(FP64)算力上,是後者的 192 倍(68/0.35)。

集中化:我們注意到,多個上市公司涉足 AIDC 行業,類似於比特幣礦場,它們集中管理 GPU,負責尋找優質電力、檢測 GPU 宕機情況並維修、調度算力與散熱等等。

雲化:面臨暴增的 AI 算力需求,大模型訓練模型使用的算力資源 GPU 陷入了供應短缺,「雲算力」模式興起。它能讓 AI 大模型廠商無需購買英偉達 A100 顯卡等硬體,而直接按需租用雲算力平台算力,這使得初創企業或非頭部模型廠商也能嘗試進入 AIGC 領域。

2.2 算力調優:大模型時代,通信即調優

2.2.1 算力調優是算力發展的終身課題

算力調優概念範疇龐大,囊括軟硬體技術,涵蓋宏微觀場景。「算力調優」概念伴隨 AI 引發的算力需求熱潮隨之誕生,本質上算力調優是將算力作為一種資源,資源都是有限的,將有限的算力資源進行重新配置並達到帕累托最優的過程即可稱之為「算力調優」。算力調優可以區分為宏觀和微觀兩大場景:

微觀層面:微觀層面的算力調優聚焦於模型調優。一方面,大模型訓練最直接接觸到算力資源,伴隨深度學習模型越來越大,訓練模型需要的 GPU 越來越多,通過算力調優,可以減少模型訓練時占據的顯存,是降本增效的關鍵步驟;另一方面在大 模型的推理領域,將模型放入嵌入式系統的需求相當普遍,通過算力調優減少模型推理時的內存也至關重要。

宏觀層面:宏觀層面算力調優包含模型調優、網路調優、算力調度三大層級,除了直接影響算力使用效率的模型調優,網路調優的重要性也日益提高,在大模型對大規模分布式並行訓練有更強訴求的背景下,適應 AI 大模型的高性能網路至少具備超大規模、超高帶寬和超長穩定三大性能;算力調度本質上是將算力作為資源,進行資源分配和優化的過程,核心解決了算力資源供需不匹配的問題。

算力發展產生三大邊際變化,推動算力調優成為核心議題。算力調優概念的誕生與興起,主要伴隨了算力及網路的三大變化,算力需求總量、擴散趨勢和需求特徵均在 5G、AI 等產業加速發展的背景下發生邊際變化:

算力需求總量增加:一方面通用算力需求不斷增加,5G 推進逐步落地,各類應用逐漸興起,對算力需求逐步提升,此外大數據、智能汽車、智慧城市、物聯網等各類新業態新平台的興起也加大通用算力的需求量;另一方面智能算力需求提升迅速,伴隨 AIGC 產業的加速發展,國內大模型訓練及推理快速推進,智算成為大模型落地必不可缺的生產力之一,需求空間龐大,根據 IDC 及浪潮預測,到 2026 年國內通用算力規模將達到 111.3EFLOPS,智能算力規模將達到 1271.4EFLOPS。

算力需求擴散:算力需求期初主要集中在單一設備上如電腦、工業智能設備等,伴隨 5G 和 AI 時代的到來,海量數據擴散到各類設備上,汽車、公路、城市智慧屏等各類終端都需要數據處理能力,算力需求從數據中心向網路邊緣和終端設備擴散。

算力需求多樣化:隨著數字經濟的崛起,算力需求逐漸走向多元化,如自動駕駛對算力需求集中在高性能、低延遲、實時性;而生成式 AI 由於需要大量 GPU 並行計算,對算力需求集中在穩定長時間輸出能力上;邊緣計算的需求點主要在於短距離和低時延。

未來伴隨 AI、5G、數字經濟的持續發展,算力資源持續緊缺,算力調優將成為算力使用者的終身課題。無論是傳統算力、智算算力、或邊緣算力,都對算力具備相當持久的需求,未來技術的疊代創新、各類 AI 應用的漸次爆發、算力輻射範圍從 B 端到 C 端的擴大,都會進一步加大算力資源的緊缺,無論是從效用角度、成本角度出發,算力調優都將成為算力使用方必須重視和投資的關鍵環節。

2.2.2 網路調優:算力調優的核心手段

1)源起:從 GPU 的通信出發 AI 時代

GPU 成為核心處理器,分布式訓練訴求提升。GPU 採用並行計算方式,擅長處理大量、簡單的運算,因此多適用於圖像圖形處理和 AI 推理。但是大模型複雜度日益提升,單卡 GPU 顯存有限,無法滿足訓練需求,比如百度文心一言大模型有 2600 億個參數,但是實際上一個 80G 顯存的 A800,算上訓練中間的計算狀態,只能存放 10-20 億參數,存放 2600 億的模型就需要 100-200 塊 GPU;此外,後續大模型訓練需要更多參數和更多計算,由此產生的 GPU 需求更為龐大。為適應算力需求,需要聯合多張 GPU 甚至多台伺服器協同工作,分布式訓練成為核心訓練方式。

用AI重新定義通信,超算網際網路時代的調度與調優

網路連接在分布式系統中擔任重要角色。網路在分布式系統中提供了連接作用,可以根據連接層級區分為單卡、多卡、多機互聯,單卡內的網路為計算用的神經網,多卡之間的連接(即 GPU 互聯)通常採用 PCIe 或各種高帶寬通信網路,多機之間的連接(即伺服器互聯)通常採用 RDMA 網路。

①多卡互聯:傳統 PCIe 與 NVLINK/CAPI/GenZ/CCIX/CXL 的「百家爭鳴」

總線是數據通信必備管道,PCIe 是最泛使用的總線協議。總線是伺服器主板上不同硬體互相進行數據通信的管道,對數據傳輸速度起到決定性作用,目前最普及的總線協議為英特爾 2001 年提出的 PCIe(PCI-Express)協議,PCIe 主要用於連接 CPU 與其他高速設備如 GPU、SSD、網卡、顯卡等,2003 年 PCIe1.0 版本發布,後續大致每過三年會更新一代,目前已經更新到6.0版本,傳輸速率高達64GT/s,16通道的帶寬達到256GB/s,性能和可擴展性不斷提高。

PCIe 總線樹形拓撲和端到端傳輸方式限制了連接數量和速度,PCIe Switch 誕生。PCIe 採用端對端數據傳輸鏈路,PCIe 鏈路的兩端只能各接入一個設備,設備識別數量有限,無法滿足有大量設備連接或需要高速數據傳輸的場景,因此 PCIe Switch 誕生。PCIe Switch 具備連接和交換雙重功能,可以讓一個 PCIe 埠識別和連接更多設備,解決通 道數量不夠的問題,並可以將多條 PCIe 總線連接在一起,從而形成一個高速網路,實現多設備通信,簡言之 PCIe Switch 相當於 PCIe 的拓展器。

GPU 互聯時代,PCIe 傳輸速率和網路延遲無法滿足需求,NVLINK/CAPI/GenZ/CCIX/CXL 等「百家爭鳴」時代開啟。AIGC 的發展極大刺激算力需求的增加,GPU 多卡組合成為趨勢,GPU 互聯的帶寬通常需要在數百 GB/S 以上,PCIe 的數據傳輸速率成為瓶頸,鏈路接口的串並轉換會網路延時,影響 GPU 並行計算效率,還由於 GPU 發出的信號需要先傳遞到 PCIe Switch,PCIe Switch 涉及到數據的處理又會造成額外的網路延時,此外 PCIe 總線與存儲器地址分離,每次訪問內存會加重網路延遲,因此 PCIe 協議在 GPU 多卡通信中效率並不高。為了將總線通信效率提升, 降低延時,各家紛紛推出替代協議:

CAPI 協議:由 IBM 最早推出,後逐漸演化成 Open CAPI,本質是現有高速 I/O 標準之上的應用程序擴展,添加了緩存一致性和更低延遲等內容,但由於 IBM 伺服器份額的持續下降,CAPI 協議缺少用戶基礎,最終未能廣泛流傳。 GenZ 協議:GenZ 是不依賴於任何晶片平台的開放性組織,眾多廠家參與其中包括 AMD、ARM、IBM、Nvidia、Xilinx 等,GenZ 將總線協議拓展成交換式網路並加入 GenZSwitch 提高了拓展性。CXL 協議(陸續兼併上述兩個協議):2019 年由 Intel 推出,與 CAPI 協議思路類似,2021 年底吸收 GenZ 協議共同發展,2022 年兼併 Open CAPI 協議,CXL 具備內存接口,逐漸成長為設備互連標準的重要主導協議之一。CCIX 協議:ARM 加入的另一個開放協議,功能類似 GenZ 但未被吸收兼併。

NVLINK 協議:英偉達提出的高速 GPU 互聯協議,對比傳統 PCIe 總線協議,NVLINK 主要在三個方面做出較大改變:1)支持網狀拓撲目,解決通道有限問題;2)統一內存,允許 GPU 共享公共內存池,減少 GPU 之間複製數據的需要,從而提高效率;3)直接內存訪問,不需要 CPU 參與,GPU 可直接讀取彼此的內存,從而降低網路延遲。此外,為解決 GPU 之間通訊不均衡問題,英偉達還引入 NVSwitch,一種類似交換機 ASIC 的物理晶片,通過 NVLink 接口將多個 GPU 高速互聯,創建高帶寬多節點 GPU 集群。2023 年 5 月 29 日,英偉達推出 AI 超級電腦 DGX GH200,通過 NVLink 和 NVSwitch 連接 256 個 GH200 晶片,所有 GPU 連接成一個整體協同運行,可訪問內存突破 100TB。

②多機互聯:IB 網路與以太網路並存

分布式訓練下 RDMA 網路成為最佳選擇,包含 IB 網路和以太網路。傳統的 TCP/IP 網路通信是通過核心發送消息,涉及較多數據移動和數據複製,不適用高性能計算、大數據分析等需要 IO 高並發、低時延的場景。RDMA 是一種電腦網路技術,可以直接遠程訪問內存數據,無需作業系統核心介入,不占用 CPU 資源,可以顯著提高數據傳輸的性能並且降低延遲,因此更適配於大規模並行電腦集群的網路需求。目前有三種 RDMA:Infiniband、RoCE、iWARP,後兩者是基於以太網的技術:

Infiniband:是專為 RDMA 設計的網路,從硬體級別保證可靠傳輸,具備更高的帶寬和更低的時延。但是成本高,需要配套 IB 網卡和 IB 交換機。

RoCE:基於以太網做 RDMA,可以使用普通的以太網交換機,成本較低,但是需要 支持 RoCE 的網卡。

iWARP:基於 TCP 的 RDMA 網路,利用 TCP 達到可靠傳輸。相比 RoCE,在大型組網的情況下,iWARP 的大量 TCP 連接會占用大量的內存資源,對系統規格要求更高。可以使用普通的以太網交換機,但是需要支持 iWARP 的網卡。

2.2.3 現狀:AI 的網路新需求

AI 大模型的訓練和推理對網路提出了有三大新的需求:超大規模、超高帶寬以及超長穩定。

1)超大規模-訓練快慢:規模的大小直接決定模型訓練的快慢。一個 1750 億的模型,如果採用 2 千張 GPU,需要訓練 100 天以上。採用 8 千卡則可以把時間壓縮到 30 天左右。

2)超高帶寬-效率:All Reduce 帶寬直接決定大規模分布式下的整體效率。平均單 GPU 的 All Reduce 帶寬有 5GB/s 的時候,大規模分布式的整體加速比只有約 70%;平均單 GPU 的 All Reduce 帶寬 20GB/s 才能獲得約 90%的加速比,相當於單 GPU 跑滿 400G 網卡。

3)超長穩定-訓練不中斷:大模型訓練時長至少是幾個星期,長時間下的穩定性尤為重要。穩定性又可以細分為 GPU 可用性 網路可用性:GPU 可用性:根據百度智能雲技術站測算,假定單 GPU 的月可用性是 99.9%,那麼在千卡規模下模型訓練一月內遇到故障發生中斷的概率是 60%,而如果採用 8 千卡中斷概率就有 99%。即使 GPU 的可用性提升到 99.99%,8 千卡下的中斷概率仍然在 50%左右。網路可用性:存儲的讀寫性能也對大模型的訓練非常重要,這裡面就包括了數據集的讀取以及訓練過程中 checkpoint 的讀寫。網路必須保證更高的可用性,才能儘可能減少模型的訓練中斷,降低模型做 checkpoint 的頻率以及開銷。

超長穩定性能在三大基礎性能中,屬於必不可少的剛需地位,直接影響模型訓練和後續推理的延續性以及成功率。保持任務長時間不中斷對於大模型訓練至關重要,一旦硬體出現故障,在光模塊集群中容易造成「多米諾骨牌」式失誤,即演變成 1*N 個硬體出錯,影響模型訓練的整個流程,根據百度智能雲技術站測算,一個可以承載 16000 卡的集群會有將近 10 萬個光模塊,假定一個模塊的 MTBF(一個硬體設備在故障前的平均使用時長)是 1 千萬小時,由於模塊基數太大,哪怕是 1000 萬小時的 MTBF,也會導致平均下來 4 天左右就會發生一個故障發生,在大基數背景下,單體的小概率事件會演變成總體的大概率事件。大模型訓練中,網路極其複雜度,一些硬體故障無法被顯式直接感知,為保障模型訓練的長期穩定性,各大平台均在不同程度上應用智算可視化工具,對數據進行實時監控採集。

百度百舸平台大模型配備兩大核心工具,任務可視化工具 故障診斷工具。其高精度可視化工具可以把一個任務的幾百上千個實例的監控數據合併到一起來看,用於判斷任務是否正常訓練。

openAI 在訓練過程中加 checkpoint 保證連續性。在 OpenAI 和機器學習的背景下,checkpoint(檢查點)是指在訓練過程中保存的已訓練模型的特定時間點的版本,包含模型的權重、參數和其他重要資訊。在訓練過程中加入 checkpoint 以後,一旦出現訓練中斷,可以隨時返回並使用已保存的 checkpoint 處的模型,無需從頭開始訓練。此外,checkpoint 除了能提供恢復訓練功能,還有其他幾個作用,如實驗可重現性、模型評估、遷移學習等。

用AI重新定義通信,超算網際網路時代的調度與調優

2.2.4 未來:網路為主,可視化為輔

面對 AI 大模型對算力網路通信功能提出的新需求,核心在於網路通信能力的提升,輔助以智算可視化等必備硬體。超大規模、超高帶寬、以及超長穩定三大新需求,核心都在於網路通信能力的提升,一方面可以採用英偉達全套架構,搭配以專業的 IB 網路,另一條出路在於自研高規格的網路架構,其本質都是集中精力提升網路性能。此外,輔助 以核心硬體如網路可視化,也是調優的重要部分。在一個算力集群中,無論是使用以太網還是 InfiniBand 協議搭建通信網路,數據都是以若干個包(packet)的形式進行傳輸。為了實現對通信網路的流量監控,避免網路擁堵或硬體失效影響整個系統的效率,就需要實時監測每條通信鏈路的的工作狀態。例如,在一個常規的三層網路架構中,有一種經典的調優方式 DPFR(Data Plane Fast Recovery),可以做到毫秒級收斂。

網路調優最核心的原理就是利用軟體或硬體技術抓取數據包進行分析。數據包的嗅探抓取分為軟體實現和硬體實現兩種路徑。以軟體實現的數據抓包最常用,國內外知名產品有 Wireshark(處理 TCP/UDP)、Fiddler(處理 HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet 等。以 Wireshark 為例,其基本工作原理是:程序將網卡的工作模式設置為「混雜模式」(普通模式下,網卡只處理屬於自己的 MAC 地址的數據包,混雜模式下,網卡會處理所有流經的數據包),同時由 Wireshark 進行數據包的截獲、重發、編輯和轉存。

軟體抓包會占用部分系統性能。首先,混雜模式下網卡處於「廣播模式」,會處理網路下層收發的所有數據包,本身就會消耗網卡一部分性能;其次,軟體抓包不是在鏈路層串行或並行抓取,而是將數據包進行複製和存儲,占用了一部分 CPU 和存儲的資源。同時,類似 Wireshark 這種軟體大多只能做到對系統里的單一網路節點進行流量監控,難以覆蓋到全局網路,適合被動的故障排除作業,不適用於主動風險監測。為不影響系統整體性能,並行或串行接入的軟硬體結合工具應運而生,常用的工具有 DPI 和 DFI。DPI(Deep Packet Inspection,深度報文檢測)是一種基於報文的應用層資訊對流量進行檢測和控制的功能。DPI 著重對應用層的分析,能夠識別各種應用及其內容。當 IP 數據包、TCP 或 UDP 數據流通過支持 DPI 技術的硬體設備時,設備會通過深入讀取報文載荷來進行重組和分析,從而識別整個應用程序的內容,然後按照設備定義的管理策略對流量進行後續處理。DFI(Deep/Dynamic Flow Inspection,深度/動態流檢測)採用的是一種基於流量行為的應用識別技術,即不同的應用類型體現在會話連接或數據流上的狀態各有不同。DPI 技術適用於需要精細和準確識別、精細管理的環境;而 DFI 技術適用於需要高效識別、粗放管理的環境。

DPI/DFI 由獨立硬體串/並接在物理層,不會影響物理層的性能表現。以浩瀚深度的 DPI 軟硬體產品為例,其可以部署在電信網路的各層級網路節點,同時通過 SaaS/PaaS 完成對各層級監測節點數據收集、分析和呈現。DPI 硬體串接或並接在通信物理層,通過鏡像數據包實現近乎無損的網路監測。DPI 軟體嵌入在 DPI 硬體、獨立伺服器或交換機/路由器中,實現網路監測。

網路可視化——流量監控高效工具。流量監控 SaaS/PaaS 用來實現對各層級 DPI 監測節點的數據收集、分析和呈現,將網路數據以客戶和應用所需要的方式展示,幫助用戶精準掌握網路運行情況,以及其中蘊含的有價值資訊;同時結合大數據分析與挖掘、多維度數據關聯分析、流量控制和管理等手段,實現網路管理、資訊安全與商業智能的一類應用系統,通常稱為網路可視化。

恆為科技進一步投入智算可視化研發,從傳統網路可視化、信創基礎產品,向智算基礎架構方向積極擴展,新產品以及新技術研發持續推進,其中包括針對智算系統 100G 以太網/IB 網、200G 以太網/IB 網的智算可視化運維系統,以及 100G 類 IB 的低延時中國智算加速網卡和交換機系統。

2.2.5 模型調優

模型層面調優,亦或者是軟體層面調優,與我們平時所認為的例如對於遊戲,軟體等等的性能優化有一定區別。在當下模型快速疊代,參數戰爭依然如火如荼的當下,如何削減參數,如何減少訓練時所需的 GPU 總數亦或是算力總量,並不是頭部玩家關注的重點,頭部玩家關心的是,如何讓自己重金投入的 GPU 集群快速達到滿載算力,從而進一步實現領先於對手的模型疊代與參數擴張。綜上,模型層面的調優,在當下的業界,可以理解為,如何通過模型架構的設計,進一步壓榨 GPU 的性能,而並非壓縮模型的非必要環節,從而節省模型的訓練所需的算力。當前的 AI 模型訓練過程主要基於兩個主要框架進行,即 Tensor Flow 和 PyTorch。這兩個框架除了給予 AI 訓練所必須的基本環境,包括了作業系統、工具和運算流程,也在壓榨 GPU 算力層面給予了較為完善的框架。模型訓練過程與我們日常生產中的流水線類似,即一個模型中有幾層訓練步驟,對應了生產線上有幾道工序。模型架構層面優化 GPU 使用能力的方法主要是並行,即對流水線的工人的任務分配或者流水線的優化。

模型層面的並行主要有兩種,第一種是數據並行,第二種是模型並行。首先,第一種數據並行。數據並行,是指將一層模型運算中所需要的數據切分至 N 張顯卡進行運算,N 張顯卡運算出結果後,即可匯總進行下一層。模型並行指的是將一次模型訓練需要的 N 層運算,分別放入 N 張顯卡進行運算,但隨著模型體積愈發龐大,單個顯卡難以容納一 整層的計算,所以模型並行在當下正在加速被數據並行所替代,數據並行的瓶頸則在於數據實時的切分與溝通,並行方式的變化,也在一定程度上,進一步提高了通信能力的重要性。

用AI重新定義通信,超算網際網路時代的調度與調優

此外除了框架或者訓練原理層面自帶的並行能力外,專用的訓練過程中調優工具也進一步方便了用戶的使用,當下,全球模型訓練者使用的訓練調優工具基本以微軟提供的開源工具庫 Deepspeed 為主,DeepSpeed 通過將訓練數據預處理等方式,優化了數據進入 GPU 的效率和所需空間,從而為發揮 GPU 集群性能或者提高小 GPU 訓練上限提供了解決方案。

有了模型調優層面的兩大工具,框架與 Deepspeed,接下來的調優便是利用這兩個環節提供的能力,進行經驗的積累,例如數據並行的時候如何保證各個環節的先後順序,數據塊分配,如何利用 Deepspeed 進行進一步的數據處理等等,經驗的積累會進一步加深各個頭部大模型廠商的訓練能力壁壘,從而使得大模型格局更集中。

正如本節開頭所說,當下大模型時代,模型的算法層面調優,或者是去優化模型訓練中所需要的算力與金錢性價比這種路線已經逐漸式微。在過往的小模型時代,由於資金投入的有限,對於快速商業化的追求,行業內和實驗室會更多的關注小算力下的小模型優化。但是隨著以 GPT 為代表的大模型的橫空出世,重劍無鋒的參數、數據、算力堆疊,被業界逐漸認為是走向 AGI 的必經之路,當下,模型算法層面的調優,模型性價比的提升可能會在一定程度上放緩,模型層面的進化,可能更多的會發生於訓練系統和工具庫層面如何去更好的調用 GPU 算力。

2.3 算力調度:全局最強輔助

2.3.1What-算力調度是什麼

算力調度本質上是將算力作為資源,進行資源分配和優化的過程。從宏觀來看,算力調度是通過智能分配策略實現算力的靈活流動,解決國內算力需求與資源分布不均的矛盾;從微觀來看,算力調度是對用戶的各種需求匹配合適的資源,根據不同業務場景對多樣 性算力資源進行自動的需求匹配和調度。算力調度核心解決了算力資源供需不匹配的問題。算力調度主要用於解決算力供需矛盾、算力網路傳輸問題、以及算力資源普惠問題,根據算力資源提供方的供給能力和應用需求方的動態資源需求,進行算力資源整合和分配,涉及基礎設施底層的計算、存儲、網路等多維資源的一致性管理、一體化編排和統一調度。

2.3.2Where-算力在哪裡調度

算力調度的場景較為廣泛,既可以按照產業鏈分為雲與雲之間、雲和數據中心之間、雲網端之間,也可以按照行業、地區、層級進行劃分,目前較為典型的兩個調度場景存在於跨區域和跨層級:跨區域調度:即「東數西算」,東部科技企業數量較多對算力的依賴性較高,且由於數據中心建設相對較早,缺乏統籌規劃,對需求估計不足,打通東西部算力資源、實現東西部算力協同,是建立在算力資源跨區域調度核心能力至上的。跨層級調度:算力不僅僅集中於數據中心,更是擴散到邊緣網關、甚至各類終端,因此雲—邊—端的算力資源協調也稱為算力調度的重要應用場景之一。

2.3.3How-如何實施

算力調度目前尚處於逐步落地階段,具體實施步驟有待在執行中逐漸完善,但是根據算力分布分散、需求具備多樣性和靈活性等特質,通常情況下算力調度至少需要包含三大步驟:

整合多元異構資源:算力調度首先需要標準化底層算力資源,如 CPU、GPU、神經網路處理器等,建立度量模型,形成評估標準。然後,摸清算力調度區域的基礎設施和資源情況,整合不同所有方的閒置資源。

搭建算力調度平台:通過統一的平台整合如實時感知、供需匹配、智能調度、服務運營和監測管理等多種功能,平台充當算網大腦,根據資源分布情況動態計算最佳調度策略,實現統一的算力交易和售賣。

建立標準規範體系:標準規範體系包括算力交易、管理和安全規則,涉及產品定價、自動結算、賬本記錄、權利義務和可信服務機制。

2.3.4Who-誰在參與

算力調度平台作為算網大腦,通過整合不同來源、類型和架構的算力資源,按需調動分配算力,在算力發展中後期重要性將會進一步提升,目前國內已經湧現多個算力調度平台,按照主導方的不同可以分為四大類,其中運營商算力調度平台的基礎能力優勢較為顯著:

電信運營商主導平台:由中國電信、中國移動、中國聯通牽頭或參與建設並運營的算力調度平台,擁有強大的網路基礎設施,能夠在全國範圍內實現算力資源的高速互聯,保障數據和算力的快速傳輸和穩定運行。比如中國移動推出移動雲智能算力調度平台,中國電信天翼雲下的「息壤」平台即具備智能高效算力調度能力,中國聯通推出算網一體化編排調度體系進行算網資源的智能調配。

地方政府主導平台:由西部一些節點城市牽頭或建設運營的算力調度平台,依託西部地區的自然資源和能源優勢,建設低成本且符合低碳要求。比如貴州大數據與實體經濟深度融合公共服務平台,將建成面向全省專注於服務大數據與實體經濟深度融合、數字化產業轉型的公共服務平台。

企業主導平台:由部分網際網路或科技巨頭企業牽頭或參與的算力調度平台,依託企業在 AI、大數據、雲計算等方面的技術積累和客戶積累,整合算力資源並實現跨區域、跨境、跨平台的互聯互通和優化配置。比如阿里雲發布的洛神雲網路具備雲企業網的全球化智能雲網調度能力,中科曙光推出的曙光雲計算平台可提供雲伺服器、雲存儲、雲資料庫、雲安全等服務。

行業機構主導型平台:主要由行業機構牽頭或參與參與的算力調度平台,以強大的政策支撐力和行業影響力為基礎,促進算力資源的整合和共享,保證算力調度平台的穩定性和安全性。如中國信通院聯合中國電信發布全國一體化算力算網調度平台可以實現跨資源池/跨架構/跨廠商的異構算力資源調度,目前已接入天翼雲、華為雲、阿里雲等。

3。軟體服務——海外先行,百花齊放,部署先行

3.1 軟體服務的三個方向:數據管理、模型落地、訓練可視化

3.1.1 數據管理

模型微調的基礎是數據管理。優質的、結構化的數據要素,推動大模型訓練向著高精確度、高安全性和垂直化專業化的方向前進。現有的開源 LLM 稱為「預訓練模型」,也就是說其他人已經收集了大量的訓練數據並提前訓練了模型,例如 NVIDIA NeMo 和 MetaLlama 都是「多面手」,它們能流利地使用英各種語言,並且對各種話題都有不同程 度的了解,但是礙於訓練時的數據,這些 LLM 往往對某個專業領域不夠深入。以 snowflake 為例,該平台支持客戶使用自己的數據集進行模型的進一步訓練和微調,以保證客戶定製的模型能夠在特定領域做到專精,減少 AI 幻覺。Snowflake 子公司 Applica 憑藉 TILT(Text-Image-Layout-Transformer)模型,專精於智能文檔。

3.1.2 模型落地

Modular Mojo:下一代設計模型與加速庫設計語言。Modular 創建了 Mojo 編程語言,基於 Python 的語法和社區生態和 MILR(一種開源編譯器),針對 AI 開發時的異構計算和 Python 的多線程編譯問題進行深入優化。

用AI重新定義通信,超算網際網路時代的調度與調優

octoML:模型部署工具,快速實現成品模型在各種算力設備上的優化和部署。以 OctoML 部署的 StableDiffusion 為例,OctoML 利用機器學習優化技術能夠實現三倍的推理速度,同時還支持快速模型微調。 OctoML 優化了多 GPU 部署和連續批處理,Llama2 實現 3 倍性能提升。大模型的參數數量給 GPU 帶來的負載並非線性增長而是指數增長,因為參數數量的提升帶來了多 GPU 並行計算問題和大模型最為經典的 KV 緩存問題。OctoAI 針對以上問題進行了優化。

Deci:模型部署層面優化,小模型功能優化。DeciLM 解碼器的 Transformer 具有可變的 Grouped-Query Attention(GQA)的能力:其會改變不同 Transformer 層的 attention 組、鍵值和數值的數量,DeciLM 是第一個在 Transformer 層結構互不重複的語言模型。60 億參數的 DeciLM 模型在跑分上勝過 PyTorch 的 70 億參數 Llama2。

3.1.3 訓練可視化

Databricks:GPU 資源管理工具,模型和訓練進度可視化,Databricks 核心業務是將數據湖和數據倉庫統一到一個平台中,也就是湖倉一體,和上文的 snowflake 相似,Databricks 在資料庫功能實現方式上與 snowflake 存在區別。Lakehouse AI 通過對整套算力集群的資源管理,幫助開發者進行模型訓練和推理的監控。Databricks Lakehouse Monitoring 通過監控數據管道和訓練管道實現 LLM 的性能和質量管理,並創建可視化界面。

3.2 國內市場展望

前文我們復盤了幾家在各自環節具有代表性意義的超算軟體公司,顯然,在模型與 AI 進展更加領先的海外,我們已經能夠看到客戶需求與行業創造的共振。但國內目前的 AI 生態,仍然處於先追趕算力,再追趕模型的階段,對於商業部署,全流程可視化等等的後續需求,市場尚未顯現。但我們認為,AI 大勢在國內不可阻擋,並且隨著算力資源,模 型資源向著網際網路大廠、運營商等加速集中,國內現有的中小型 AI 參與者可以未雨綢繆地參考海外模式進行轉型或者擴張。

算力租賃/調優廠商參考 databrick 模式。上節提到,databrick 軟體擁有幾大特色,訓練資源,訓練流程的可視化,訓練算力。訓練用存儲的實時擴容等,並通過把這些能力形成一套完整的 SaaS 平台,獲得了客戶的認可。相比 Databrick,國內算力租賃廠商,算力調優廠商擁有更加自主可控的算力資源與算力可視化硬體基礎,如果能夠在此之上配合 SaaS 整合能力和存儲相關服務,有望成為軟硬體一體的綜合訓練服務 SaaS 平台。

資料庫廠商參考 snowflake、cloudflare 模式。近年來,海外以 Snowflake 為代表的全新資料庫巨頭將雲端數據存儲帶入了新的高度。如今隨著 AI 對於訓練數據的需求,如何將資料庫安全,合理的輸送到訓練集群,如何將現有資料庫自動轉換成適用於 AI 訓練的數據,已經成為這些頭部資料庫公司的下一代進化方向。國內資料庫公司目前多服務 於信創等場景,對於雲存儲,AI 數據轉化,支持 AI 訓練等方向仍然有很大的發展空間。

中小模型,垂直場景創業者參考 DECI、octoML 模式。隨著海外大模型廠商漸漸往垂直領域滲透,垂類應用廠商逐漸從獨立開發小模型轉向接入成熟大模型,同時醫藥、圖像識別等需要特殊處理或者獨立資料庫支持的行業依然依賴於獨立模型。海外因此逐漸湧現出一批如 DECI、octoML 等幫助客戶快速進行成熟模型在行業內落地服務的公司,這 批公司通過針對現有模型的「準確率與推理算力再平衡」、「低算力環境優化運行」等服務,幫助垂直行業公司快速 AI 化。隨著國內模型格局逐漸向大廠集中,中小模型創業者或是垂類場景創業者轉向幫助已有垂類應用快速 AI 化,將打開新的末端生態。

用AI重新定義通信,超算網際網路時代的調度與調優

不難發現北美的創業公司更多的集中在大廠無法兼顧或者覆蓋的用戶端部署和優化環節, 對於涉及訓練、生態等較為核心的環節,北美則多為英偉達及其合作的巨頭夥伴所掌握。但隨著英偉達、AMD 等海外算力在國內受限,國內算力及其配套生態則有望變得更加開放。影響算力發揮的核心環節主要集中在 GPU 配套的編譯器以及覆蓋海量垂直應用場景的加速庫,編譯器環節需要對於 GPU 架構的強耦合,因此產業鏈外溢機會可能較少。但加速庫需要各類場景下的客戶與 GPU 廠商共同進步。當前以昇騰為代表的中國 GPU 加 速生態仍然處於建設初期,因此給予了國內第三方相關廠商與 GPU 互相合作建設加速庫的機會,因此,可能在加速庫共建的基礎上,國內軟體創業公司將對於後續的落地部署環節能有更強的垂直擴張能力。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新