宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

2025年07月10日 首頁 » 熱門科技

作者 | 周雅

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

「為什麼AI這麼火?」

是德科技大中華區高速數字市場部經理李堅,最近在是德科技(Keysight Technologies)年度技術會議 Keysight World Tech Day 2025上,拋出這個問題的同時,答案也呼之欲出:就像是90年代的移動通信、2001年前後的網際網路,以及隨後的移動網際網路浪潮,而AI是未來10年內最大的風口。

Bloomberg數據顯示,全球AI市場規模預計將從2022年的869億美元增長至2030年的1.3萬億美元。Markets and Markets數據進一步指出,該市場在2024至2030年的年複合增長率預計高達35.7%,這一增長,預期是驅動全球企業大規模投入AI基礎設施建設的核心動力。

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

但是,在AI高速發展的背後,數據中心的實際運營也出現了瓶頸。

數據中心的瓶頸

我們知道,數據中心的複雜性超乎想像,它由大量的伺服器、GPU、CPU、網路交換機等組件構成,這些設備通過機架連接,機架之間再通過複雜的網路架構連接成集群,最終由數百個集群組成一個完整的數據中心。

數據中心的複雜,要求在多個技術層面取得突破:首先是高速的網路技術;其次是計算架構,包括GPU性能的持續提升;最後,也是至關重要的一點——功耗。

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

圖源:是德科技

正如是德科技高級副總裁兼通信解決方案事業部總裁Kailash Narayanan現場指出,算力固然重要,但如果能耗過高,技術的實用性將大打折扣,因此,所有的高速、高性能計算,都必須在極低的功耗下實現,這是AI等技術能否大規模落地的核心前提。

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

是德科技高級副總裁兼通信解決方案事業部總裁Kailash Narayanan

在深入分析AI數據中心建設過程時,李堅進一步揭示了兩個普遍的痛點:

第一,GPU利用率普遍偏低。

GPU作為AI數據中心最核心且最貴的算力資產,其工作效率直接決定了數據中心的整體效能。然而,是德科技的調研數據顯示,在典型的模型訓練過程中,GPU的實際計算時間僅占約20%,另有16%為計算與數據傳輸的重疊時間,Memory的時間占2%,而高達62%的時間都處於等待狀態。這意味著,一個GPU的真正有效工作時間僅為38%左右。

李堅進一步指出,造成GPU利用率低的主要原因是「數據傳輸瓶頸」——GPU沒有及時收到數據,自然就無法進行計算,導致算力資源的大量浪費。

第二,可靠性差。

大語言模型的訓練周期通常長達數周甚至數月。李堅指出,有數據顯示,一次訓練任務能夠不受干擾、順利完成的概率僅為57%,因為中途可能出現各種軟硬體故障,而硬體故障是導致訓練中斷的主要原因。

問題的根源在於,為滿足AI算力需求,數據中心內部的元器件在高溫、高速、7x24小時不間斷運行,很多器件已經逼近物理極限。「目前很多算力中心的高速器件的可靠性,遠未達到傳統數據中心的水平。例如,一個NVIDIA NV72機櫃內包含超過五千根線纜和上百個光模塊,任何一個組件的失效都可能導致整個系統停機,如果缺少有效的斷點保護與恢復機制,之前的訓練成果可能全部作廢。」李堅進一步強調。

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

是德科技大中華區高速數字市場部經理李堅

這兩個瓶頸的產生,與AI的快速演進密切相關。

李堅解釋,大模型需要大算力、大數據、大帶寬的支持,這就推動了數據中心內部互連技術標準的快速疊代,但現有標準無法滿足頭部算力晶片的帶寬需求。所以,未來幾年裡,存儲技術將快速發展,從DDR5向DDR6/7、HBM3/4演進,接口技術從PCIe 5向PCIe 6/7發展。

此外,速率的提升也帶來物理挑戰。高速信號在傳統PCB板上傳輸損耗和串擾嚴重,迫使新型算力機櫃大量使用電纜和光纜。但隨著速率從800G向1.6T、3.2T提升,電纜的有效傳輸距離被急劇壓縮,而有源光電模塊雖能增強傳輸,卻帶來了明顯的功耗和散熱問題,進一步威脅到系統穩定性。

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

總之,如何解決這些底層物理問題,是提升AI產業整體投資回報率的關鍵。

是德科技的「KAI矩陣」

面對AI基礎設施的效率和可靠性挑戰,是德科技正式推出一個全新的產品矩陣「Keysight AI」(簡稱「KAI」),為AI基礎設施提供全棧、全生命周期的支持。

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

KAI被劃分為四大板塊,針對數據中心從計算到網路傳輸的全路徑:

1. KAI Compute(KAI高速計算):聚焦於數據中心的最底層——算力板卡。它提供針對GPU、CPU、高速內存(HBM)及其互連接口的測試驗證方案,旨在確保最基礎的計算單元穩定可靠。

2. KAI Interconnect(KAI互連):聚焦於板卡之間的連接。當一塊塊算力板卡被造出來後,需要通過高速的電纜、光模塊、光連接器等組件連接起來,形成計算節點乃至超級節點。所以是德科技將旗下的網路分析儀、高速誤碼儀、採樣示波器等一系列用於驗證光電互連性能的解決方案,統一歸入KAI Interconnect矩陣,保障數據傳輸物理通道的質量。

3. KAI Network(KAI網路):計算節點和超級節點,還需要通過網卡、交換機、路由器等網路設備,組成一個規模更宏大、結構更複雜的算力網路。在這一層面,測試的需求從物理層延伸到了網路層乃至應用層。是德科技在多年前耗資16億美元收購的行業翹楚Ixia,其深厚的技術積累構成了KAI Network板塊的核心。這些解決方案能夠對網路設備的性能、協議一致性、安全性等進行全面的測試與驗證。

4. KAI Power(KAI能效):聚焦於數據中心的能源效率。「數據中心的盡頭是電站」,這句行業內的調侃精準地道出了功耗問題的嚴峻性。一個十萬卡集群的耗電量,甚至超過一座百萬人口的城市。而KAI Power解決方案,專注於測試和驗證電源模塊、功率器件的性能,幫助客戶提升能源轉換效率,降低整體擁有成本(TCO)。

是德科技的目標是,通過這套覆蓋全棧、全生命周期(從研發、生產到安裝維護)的解決方案,幫助客戶構建更高效、更可靠的AI基礎設施。

為將KAI的戰略構想落地,是德科技發布了三款針對性的新產品,分別切入物理層、網路層和應用層的驗證需求。

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

第一款產品:224G單通道和雙通道採樣示波器。

該產品旨在滿足下一代光電互連技術的測試需求。隨著行業向單通道224Gb/s的速率演進(這是實現1.6T及以上帶寬的基礎),測試儀器的精度至關重要。是德科技推出的這款224G採樣示波器,其核心器件是德科技久負盛名的自研技術——磷化銦(InP)技術,在示波器的噪聲和抖動等關鍵指標上表現出色,為光晶片、光模塊等組件廠商提供了精準的物理層驗證工具。

第二款產品:INPT-1600GE網路互連與性能測試設備。

當光模塊等組件被集成到網卡、交換機等設備後,驗證工作便從物理層上升到了傳輸層和網路層。李堅介紹,這款產品速率達到1.6T,其創新之處在於融入了更多針對Layer 2 FEC(前向糾錯編碼)的分析功能。更重要的是,它具備進行「極限性能測試」的獨特能力。傳統的測試大多是在靜態、理想的條件下進行。但真實工作環境中,模塊的性能會受到溫度、鏈路質量等多種動態因素的影響。這款產品能夠模擬這些極限工況,對模塊進行動態壓力測試,評估其性能邊界,而不僅僅是做一個簡單的「通過/不通過」判斷。這一功能已申請專利,體現了是德科技對真實應用場景的深刻理解。

第三款產品:工作負載仿真器。

這是三款新品中最具創新性、也最貼近AI應用實際的一款。李堅指出,當下的AI算力網路,其流量模型與傳統數據中心有著天壤之別。傳統數據中心多為「南北向流量」(客戶端到伺服器),而AI數據中心則充斥著大量GPU之間、節點之間的「東西向流量」,且這些流量往往是脈衝式的、非均衡的。如果交換機、網卡中的流量管控和調度算法(好比道路上的紅綠燈系統)設計不合理,就會導致網路擁堵,造成GPU大量等待。

這款工作負載仿真器,可用於評估網路是否高效。它是一款主要運行在是德科技AresONE硬體平台上的軟體,通過在網路部署前進行仿真測試,可以提前發現並優化交換機、網卡中的調度算法,從而有效避免上線後出現性能瓶頸,降低運維成本。李堅透露,是德科技是行業內率先提供此類仿真能力的公司,並已在北美與一些超大規模雲服務商完成了相關驗證。

深耕中國40年:與本土創新同頻共振

回顧是德科技的發展史,可追溯到1939年的惠普公司。作為惠普最初的測試和測量業務部門,他們開啟了為客戶提供設計與仿真解決方案的旅程。歷經85年後,這支隊伍先是成為安捷倫科技的一部分,並最終在十年前獨立出來,成為今天的「是德科技」。所以,儘管公司本身看似年輕,但它的技術傳承已跨越近一個世紀。

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

Kailash強調,是德科技的使命是「加速創新,創造一個安全互聯的世界」。為此,公司戰略有三個核心支柱。

首先,在客戶產品的極早期階段,便與之深度合作,確保全生命周期的陪伴。其次,大力搞研發,不斷提高自身的技術能力。最後,通過廣泛合作,包括積極參與全球標準化組織,推動技術標準的制定與落地,從而賦能整個生態。

Kailash總結說,無論是產業鏈上游的半導體公司,中游的模塊與組件製造商,還是下游集成這些組件構建路由器、交換機等大型子系統的設備商,或是超大規模雲服務提供商(Hyperscaler),是德科技為產業鏈的每一個環節提供各類解決方案。無論是AI還是6G「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困,是德科技與客戶攜手,共同推動這些顛覆性技術在中國乃至全球的商業化進程。

談及中國市場,是德科技高級副總裁兼首席營銷官Marie Hattar,介紹了是德科技與中國市場長達40餘年的淵源。

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

是德科技高級副總裁兼首席營銷官Marie Hattar

從當年作為惠普的團隊開始,是德科技就開始服務中國客戶,儘管中間經歷了安捷倫等公司的分拆,但是德科技與中國客戶的合作就一直沒有斷過。Marie自豪地表示,如今的是德科技,是一家專注於設計、仿真和測試的創新型公司,與中國客戶共同成長,將業務版圖擴展到了通信、半導體、汽車、航空航天等多個關鍵領域。

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

為了支撐中國市場發展,是德科技深耕本地化布局。目前,公司在大中華區擁有超過1000名員工,分布在10多個城市,且在中國多個城市設立開放式實驗室(Open Lab)。Marie特別指出了在北京的研發中心,該中心專注於軟體開發,確保更貼近市場需求,以「中國速度」推動創新。

以汽車領域為例。Marie認為,中國正迅速成為全球汽車行業的領導者,是德科技在全球設立的四座汽車客戶中心裡,其中一座就落戶上海。這不僅是因為中國家用車市場的蓬勃,更是因為自動駕駛計程車、自動駕駛送貨車等新興業態,在中國快速湧現。

「GPU閒置過半,器件逼近物理極限」?是德科技如何應對AI基礎設施之困

在市場觸達方面,是德科技同樣遵循本地化發展。考慮到中國客戶的溝通習慣向社交平台遷移,他們不再只依賴官網,而是將微信和公眾號作為與客戶互動的主陣地。同時考慮到影片受眾,是德科技還入駐了B站,展示各種產品評測教學。

不難看出,在這個步履不停的AI賽場,是德科技作為「基礎設施賦能者」的一員,顯然已經找到了自己的獨特價值。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新