智能體AI的快速普及正迫使晶片和系統架構師從頭開始重新思考數據中心的設計方式。過去以GPU吞吐量為核心的優化思路已不再適用,如今的系統需要CPU承擔長時間推理循環的編排任務,同時管理上下文、內存和數據移動,而GPU及加速器則專注於最繁重的數值計算。這一轉變僅是整體架構拼圖的一部分。
CPU角色的根本性轉變
Arm雲AI業務部門全球雲與AI基礎設施晶片負責人Satadal Bhattacharjee表示:"智能體AI的興起正在重塑對CPU的需求。隨著AI系統日趨複雜,CPU正逐步成為持續運行的智能循環中的編排與執行引擎,負責管理上下文、工具調用、內存移動、安全邊界以及加速器的利用率。"
Arm預測,智能體AI將要求數據中心在相同功耗範圍內提供高達四倍的CPU核心密度,但這並不意味著加速器的重要性有所下降。Bhattacharjee強調:"這凸顯了一個關鍵現實:加速器性能越來越依賴於整個系統的效率、響應速度和平衡性。"
與此同時,智能體工作負載帶來了更難以預測的控制流、不規則的內存訪問模式、同步需求以及更高的I/O強度。Bhattacharjee指出:"要避免系統級停頓,就需要更緊密的CPU-加速器耦合、更高效的數據移動、更高頻寬的內存訪問,以及能夠支持一致性、隔離性和擴展性的系統互聯架構。PCIe、CXL、晶片間相干互聯以及先進的互聯IP等技術,為系統設計師提供了在靈活性、頻寬、延遲和效率之間靈活權衡的新途徑。"
從數據加載到數據編排
西門子EDA產品負責人Sathishkumar Balasubramanian對這一變化有著更為直觀的描述:"過去談到AI,GPU主要用於矩陣運算和數值計算,但這一切正在改變。隨著智能體工作流的興起,CPU的角色從數據加載器轉變為數據編排器。整個編排層由CPU負責處理。Intel的需求之所以在上升,正是因為人們意識到需要CPU來完成大量智能體工作流任務,而只在必要時才調用GPU。數據編排將成為新的核心能力,我們正在從數據卸載轉向數據編排,這就是新型計算集群的本質。"
他進一步指出,以往GPU和CPU分處不同機架,但這種布局帶來了嚴重的內存訪問延遲問題。"因此,現在處理器開發商正在嘗試將GPU和CPU放置在同一機架中,就像伺服器廠商過去所做的那樣。"
這一趨勢在近期多項重大產品發布中清晰可見,包括英特爾代號為"Panther Lake"的Core Ultra Series 3移動處理器、搭載Arm CPU的英偉達
RTX Spark PC晶片、蘋果的Fusion架構、AMD的APU,以及英偉達的Vera Rubin平台等。
從歷史角度來看,英特爾早在2010年1月便推出了集成CPU與GPU的SoC,但如今兩者的交互方式已發生根本性變化。早期SoC將集成GPU視為輔助組件,而今天面向智能體AI的SoC則專為持續、異步、多步驟執行循環而設計,衍生出過去SoC設計中不曾存在的全新架構創新。
Balasubramanian說:"它們被集成在同一個晶片上,共享內存協議和頻寬,因此可以訪問統一內存。延遲大幅降低,CPU和GPU兩端的工作量都顯著增加。整個架構正在發生根本性變革。即使是PC也將朝這個方向發展,配備更強大的GPU和CPU,因為你需要在本地全天候運行自己的智能體,這對本地計算和數據中心都提出了很高的要求。"
邊緣計算的新機遇
Quadric首席營銷官Steve Roddy則從更宏觀的視角審視這一變化:"智能體AI真正的衝擊,將體現在雲端與邊緣計算的整體格局變化上,AI服務公司將首當其衝。以當前Token需求的增長速度,即便超大規模雲廠商每年投入1萬億美元資本支出,數據中心的計算供給也難以跟上需求。這促使業界越來越關注將更多生成式AI算力下沉到新一代AI邊緣設備。"
Roddy認為,市場需要一種售價低於1000美元、功耗與普通家電或台式電腦相當的專用智能體Token伺服器。"不久的將來,我們將看到PetaOp級推理能力出現在適合家用和辦公的被動風冷設備中。如果能有1億台這樣的智能體Token引擎分布在千家萬戶,其集體算力將超過Zetta-Op級推理計算,而無需大規模數據中心建設或新建發電站。"
他強調,實現這一新型計算範式的關鍵在於兩點:一是AI模型向去中心化計算模型的適配,使對話型AI和開發者的智能體工作流都能將計算分配在大規模集中參數模型與本地1000億以上參數模型之間;二是專為邊緣設計的、高能效、完全可編程的推理處理能力,而非將GPU改作他用。
延遲壓力與互聯架構
Synopsys PCIe與CXL產品管理總監Antonio Costa指出,過去幾年間,數據中心設計幾乎完全以GPU為中心,用於大語言模型訓練和雲端推理。在那個階段,CPU負責將數據送入GPU,PCIe作為傳輸通道,頻寬是最重要的指標,延遲並不關鍵。
"但智能體AI的引入改變了一切。CPU不再僅僅是數據饋送者,而是整個系統的編排者。CPU需要與文件、網路、磁盤進行大量交互,而GPU則扮演'大腦'的角色,根據CPU提供的指令決定下一步行動,CPU則負責執行這些行動。"
他以創建PPT為例進行說明:需要打開應用程式,調用大語言模型獲取內容,再將數據寫入文檔——這是一個高度以CPU為中心的操作流程。
Costa表示,延遲在智能體AI場景中變得至關重要。"如果響應太慢,你的智能體就會顯得遲鈍。PCIe在延遲方面具有良好的適配性,而且所需的連接數量正在急劇增加。我們看到有客戶設計的晶片需要多達100條PCIe通道,相比AI訓練時的16條通道,需求量至少增加了5倍。"
智能體AI SoC的驗證挑戰
驗證層面的挑戰同樣不容忽視。Balasubramanian指出:"單個智能體AI晶片中存在兩種不同的計算範式,需要驗證它們能夠協同工作、不產生衝突。內存架構如何規劃,數據如何讀取,指令如何排隊,都需要進行深入驗證。"
他進一步分析稱,驗證工作涉及三個層面:
第一,功能驗證。每當硬體架構發生重大變化,就需要同步開發軟體和硬體。"這意味著需要模擬和FPGA原型驗證。"
第二,性能驗證。"需要確保內存到處理器再到GPU的整個鏈路能夠滿足高需求場景的要求。"
第三,3D-IC物理效應的處理。"未來的晶片都將採用3D-IC堆疊方式。高速切換總線會帶來怎樣的熱圖分布?堆疊在上方的HBM會不會因過熱而損壞晶圓?這些都是必須解決的問題。"
此外,隨著業界對安全風險的認知不斷深化,硬體安全設計的需求也在迅速升溫。"對於智能體來說,如何在硬體層面實現受保護的訪問控制是一大挑戰。內置的安全監控器和可靠性監控器變得不可或缺,確保智能體不會執行不受信任的代碼。複雜架構使得安全與硬體監控的難度大幅提升。"
結語
Arm的Bhattacharjee總結道:"AI基礎設施正從以加速器為中心的伺服器,向異構機架級系統演進,其中針對智能體工作流各個階段優化的專用系統將各司其職、協同運作。"
智能體AI正在將數據中心轉變為高度集成、持續編排的系統,CPU驅動的工作流、CPU-GPU混合架構以及硬體級安全,都需要作為一個整體進行工程設計和驗證。對於晶片架構師而言,真正的競爭力將取決於他們能否將計算、內存、封裝和驗證流程協同設計,在快速演進的智能體工作負載面前,既不犧牲可靠性,也不失去對系統的掌控力。
Q&A
Q1:智能體AI為什麼會讓CPU重新變得重要?
A:在傳統AI架構中,CPU主要負責將數據送入GPU,角色相對被動。但智能體AI需要複雜的編排、工具調用和推理循環,CPU必須持續與文件系統、網路、儲存設備交互,並協調GPU的工作。Arm預測,智能體AI將要求數據中心在相同功耗範圍內提供高達四倍的CPU核心密度。因此,CPU正從"數據加載器"轉變為整個系統的"編排引擎",在智能體AI架構中重新占據核心地位。
Q2:智能體AI對PCIe互聯提出了哪些新要求?
A:過去AI訓練場景下,PCIe主要關注頻寬,延遲並非關鍵指標。但在智能體AI中,CPU需要頻繁與GPU、網卡、SSD等設備交互,響應速度直接影響智能體的執行效率,因此延遲變得至關重要。此外,所需的PCIe連接數量也大幅增加——部分客戶的晶片設計已需要多達100條PCIe通道,相比AI訓練時的16條,需求至少增加了5倍。
Q3:驗證智能體AI晶片面臨哪些主要挑戰?
A:智能體AI晶片將CPU和GPU集成在同一晶片中,驗證難度顯著提升,主要體現在三個方面:一是功能驗證,需通過模擬和FPGA原型確保CPU與GPU協同工作無衝突;二是性能驗證,需確保內存、處理器和GPU之間的數據鏈路滿足高並發需求;三是3D-IC物理效應,需評估堆疊晶片在高負載下的熱分布是否會導致硬體損壞。此外,硬體層面的安全監控也成為不可忽視的新挑戰。






