在摩爾定律放緩、AI模型規模持續膨脹的雙重擠壓下,嵌入式邊緣計算(Embedded Edge Computing)正經歷深層次的範式重構。
過去幾年,行業的核心命題,是如何將雲端訓練好的視覺模型通過量化、剪枝等方式壓縮到功耗、體積和散熱預算都極為嚴苛的邊緣設備中,使其能夠穩定運行。但隨著AI應用複雜度不斷提升,邊緣側承擔的任務邊界也在持續抬高。
事實上,越來越多的系統開始在受限計算環境中同時完成感知、控制與推理三類任務,並儘量減少對雲端的依賴。就比如,醫療終端逐步承擔起影像分析、輔助診斷與臨床推理,工業自動化系統則追求更少的邊緣節點和更快的本地決策速度。
隨著這些應用不斷落地,邊緣處理器所面臨的性能、能效與系統協同要求也被整體推高。也正是為了滿足這些需求,今天,AMD宣布擴展其AMD銳龍(Ryzen™)AI 嵌入式 P100系列處理器產品組合(以下簡稱 P100系列)。與此前發布的採用相同緊湊型球柵陣列(BGA)封裝的P100系列處理器相比,新款處理器可提供最高2倍的CPU核心數量、最高8倍的圖形處理單元(GPU)算力,且系統級每秒萬億次運算(TOPS)性能預計提升36%。
從應用定位來看,此次擴展意味著P100系列的產品定位正在發生轉移。此前4-6 核版本的 P100系列偏向沉浸式體驗與顯示導向場景,而全新的P100系列則面向工業自動化、Physical AI、醫療與科學計算、Pro AV/Broadcast,以及測試與測量等更複雜的邊緣系統。
某種程度上,這也反映出邊緣計算架構的演進方向——邊緣節點開始向更完善的本地計算平台靠攏。
01 告別「煙囪式」的硬體架構
在深入探討該系列SoC的具體性能之前,有必要先理解嵌入式場景下正在發生的系統形態變化。只有把這一層背景看清楚,才更容易理解為什麼AMD需要在P100系列產品線上補齊這一性能區間。
事實上,AMD在新一輪邊緣智能產品升級方向中體現出幾個非常有代表性的關鍵詞——「Consolidated systems, fewer edge nodes」「AI-driven decisions without cloud reliance」。意思是,系統整合、減少邊緣節點,以及在不依賴雲端的情況下實現AI驅動決策。
這些關鍵詞的背後,其實反映的是工業系統架構正在發生的轉變。

過去很長一段時間裡,工業場景下的邊緣計算平台普遍採用「堆疊式」的系統結構:IPC負責邏輯控制,GPU承擔圖形或視覺任務,外接AI加速器負責推理,同時再連接各種傳感器、採集卡和控制模塊。多個設備拼接在一起,共同完成一套產線或設備的計算任務。
但隨著節點數量不斷增加,數據在不同設備之間來回搬運的次數也隨之增加,系統時延、功耗、體積以及維護複雜度都會明顯上升。
這是典型的「煙囪式」架構。
而隨著AI開始進入邊緣場景的核心鏈路,這種「煙囪式」架構的局限性也逐漸顯現出來。在一個場景中,高速產線、機器人控制、低時延人機界面、機器視覺檢測,以及邊緣AI推理,往往需要在同一時間運行。而一旦這些任務分散在多個計算節點之間,跨設備的數據傳輸就會直接侵蝕系統的實時性。
換句話說,當系統開始同時承擔「感知—決策—控制」這一完整閉環時,分散式的計算架構本身就成為了瓶頸。
與此同時,負載本身也在發生變化。
其實,早期的邊緣AI主要依賴CNN架構完成目標檢測和分類,而現在的系統任務已經擴展到「vision to control & reasoning」(從視覺到控制與推理),AI開始從視覺感知延伸到控制與推理環節。
放在工業場景中,典型工作負載包括檢測與缺陷識別、機器人對齊與料箱抓取(bin picking),以及生產過程優化;在Physical AI領域,則進一步延伸到目標檢測、空間感知、運動控制、平衡控制、抓取操作、任務規劃以及人機交互;醫療場景中,還包括組織分類、腫瘤檢測、醫學影像與臨床報告的關聯分析,以及基於大語言模型的報告生成和患者問答。
這些應用有一個共同特點:AI不再僅僅負責「識別」,而是進入了決策鏈路。
這意味著,邊緣AI晶片不能再僅僅負責「看見」,還需要能夠理解、推理、做出決策,並將推理結果回寫到控制系統中。
也正是在這樣的背景下,計算平台開始從「多節點拼接」走向「單平台整合」。
所以,AMD此次對P100系列的擴容,回應的正是這種變化。其要解決的是在一個可以長期部署的嵌入式平台上,同時整合視覺處理、控制邏輯、AI推理、顯示輸出以及系統級管理等多種能力。

02 單芯集成三大計算引擎 P100搶灘邊緣計算高地
AMD對系統的整合,落在P100系列所採用的單片異構架構(Monolithic, Heterogeneous Architecture)上。
具體來說,在整體設計中,AMD將三類計算引擎直接整合在同一顆晶片內。Zen 5架構的CPU負責提供可擴展的x86通用計算能力,RDNA 3.5的iGPU承擔圖形處理與部分AI負載,XDNA 2 NPU則針對低功耗、低時延的AI推理進行優化。

具體來說,P100系列將CPU核心規模提升至最高12核24 線程,全面採用Zen 5微架構,並配備1MB L2 + 24MB L3緩存,以降低訪問時延。同時,CPU 還通過向量擴展參與部分AI計算路徑,這意味著在系統架構中,其不僅扮演調度角色,也可以承擔一定的AI計算任務。
在性能層面,以P100系列中12核的P185為例,相比上一代銳龍嵌入式 8845HS (8 核),其在Cinebench 20.0.6.0多線程測試中的性能最高提升39%。這一提升意味著,P185已經可以適配更複雜的混合關鍵系統(例如在同一台設備中同時運行控制迴路、應用服務以及歷史軟體棧等多類負載)。

統一微架構是其CPU的另一個重要特徵。P100系列的CPU核心均採用統一的Zen架構,從而簡化軟體擴展能力,並為虛擬化與系統分區提供更穩定的運行基礎。與依賴大小核結構來換取能效的方案不同,這種統一架構能夠為確定性控制、應用服務,以及legacy software stack(軟體棧)的並行運行提供更可預測的軟體行為。這對於工業主機、控制系統,以及虛擬化邊緣平台而言,這種一致性往往比單純追求峰值性能更有意義。
在指令層面,其還支持AVX-512與VNNI。前者提供高強度SIMD向量計算能力,後者則針對部分AI負載進行優化。其作用在於,對不適合部署在NPU上的輕量AI推理任務、非標準算子處理,或者對時延要求極高的小規模AI任務,CPU的向量擴展仍然是工程師手中非常實用的計算資源。
如果說CPU體現的是平台基礎算力的提升,那麼iGPU的升級則代表著並行計算能力的明顯增強。
其中,P185滿血配置了8個WGP(即16個CU計算單元),GPU計算能力最高可提升至上一代的8倍。對於一款嵌入式x86 SoC而言,這已經不再只是「夠用即可」的核顯配置,而是明確面向高並行的視覺處理、顯示輸出,以及GPGPU計算場景。
在架構層面,P100系列集成的iGPU基於RDNA3.5架構。除了圖形渲染外,其並行計算能力同樣可以用於電腦視覺、圖像處理等工作負載,為視覺類應用提供重要的並行算力支撐。
與此同時,該處理器還集成了獨立的媒體與顯示引擎,用於完成影片編解碼、傳感器數據處理以及顯示輸出等任務。例如AV1影片編解碼、圖像傳感器數據流處理以及音頻處理等工作負載,都可以在這些專用模塊中完成。
在這樣的架構分工下,GPU主要承擔並行圖形與計算任務,而媒體與顯示引擎負責影片編解碼與顯示管線,從而在SoC內部形成完整的影片處理流程。來自相機或其他圖像傳感器的影片流,可以在晶片內部完成解碼、處理與渲染,而無需依賴額外的獨立媒體處理器。
在顯示能力方面,P100系列最高支持4路4K120或2路8K120輸出。放回實際應用場景來看,無論是工業人機界面、多屏監控系統、廣播級影片合成、LED牆媒體伺服器還是醫療影像顯示,都需要同時處理多路高解析度影片流,並保持穩定的渲染與顯示延遲。
當系統同時驅動多路高解析度畫面時,圖形處理單元便成為關鍵計算資源。而基於RDNA 3.5 architecture的GPU並行圖形算力,配合高帶寬顯示管線,使P100系列能夠在複雜視覺負載下保持穩定的圖像處理與顯示性能。
CPU與GPU承擔了通用計算和並行處理,那麼在P100系列中,真正為AI負載提供專用加速的核心,則是其集成的NPU單元。P100系列搭載了第二代XDNA2 NPU,其單NPU算力最高可達到50TOPS。
從整個平台來看,P100最高可提供80 System TOPS的AI算力。其中,CPU約貢獻6 TOPS,GPU約24 TOPS,而NPU則提供50 AI TOPS。
這樣的算力劃分其實反映出其在AI應用下的異構計算模式。其實,AI任務並不是全部集中在NPU上運行,而是根據計算特性在CPU、GPU和NPU之間進行分配,由不同計算單元分別承擔推理、前後處理以及並行計算等不同環節。
在這套分工中,NPU的定位是承擔低功耗、低時延、可長期運行的AI推理任務。對於邊緣側設備而言,大量AI負載並不是短時間爆發的計算,而是需要持續運行的「常開型」任務,例如目標檢測、環境感知、喚醒模型以及安全監控等。這類任務對功耗與響應時延極為敏感,因此更適合交由專用NPU執行。
03 統一封裝、統一平台、統一擴展 P100 SKU全面鋪開
P100系列體現產品策略的地方,其實落在SKU設計上。
AMD為銳龍 AI 嵌入式 P100系列規劃了一條從4核到12核的完整產品梯度,覆蓋入門控制節點到高負載視覺系統等不同等級的工業AI設備,這種分層式SKU設計直接面向實際系統部署需求。

從標準溫度版本來看,P100系列的計算能力隨著核心數量逐級擴展。
入門型號P121採用4核8線程Zen5 CPU,最高頻率4.4GHz,配備8MB共享L3緩存,GPU為1個WGP,NPU算力30TOPS。
向上一步,P132升級為6核12線程,最高頻率4.5GHz,L3緩存維持8MB,GPU增加至2個WGP,而NPU則提升至50TOPS。
再往上,便進入此次擴展的核心區間。P164提供8核16線程配置,最高頻率達到5.0GHz,L3緩存提升至16MB,並配備6個WGP;P174進一步增加到10核20線程,最高頻率同樣為5.0GHz,L3緩存擴大至24MB,GPU仍為6個WGP;
旗艦型號P185擁有12核24線程,最高頻率5.1GHz,24MB L3緩存,同時將GPU規模提升到8個WGP。
在AI能力方面,8核以上型號統一配備50TOPS NPU,而整個SoC平台的綜合AI算力最高可達到80 System TOPS。顯示子系統方面,「全家族」均支持4路4K120或2路8K120輸出,為多屏工業系統提供統一的顯示能力基礎。
除了標準版本外,P100系列還提供面向工業和車規級擴展型號。工業版本包括P121i、P132i、P164i、P174i和P185i,其CPU核心數、GPU規模以及NPU算力與對應標準型號保持一致,主要區別在於更寬的工作溫度範圍。
車規級方面,P122a與P132a兩款型號,分別對應4核和6核配置,最高頻率統一為3.65GHz,同時LPDDR5X標註為7500MT/s並支持RAS特性,整列歸入Automotive Grade產品線。
相比單一SKU性能提升,P100系列更強調的是整體系列的可擴展性。AMD明確提出「全系列產品可靈活擴展」的設計目標。4核到12核型號在平台層面保持相同封裝、相同BIOS環境以及可配置TDP範圍。這意味著OEM或ODM廠商可以基於同一塊主板設計,通過更換不同OPN型號來覆蓋不同性能檔位。
對於B端設備廠商而言,這種統一平台帶來的價值,在於系統開發、硬體驗證和軟體適配都可以在同一基礎平台上完成,從而降低研發投入,並讓產品線更容易從入門型工控節點擴展到高性能視覺計算主機。
在功耗方面,AMD為此次新增的8核至12核型號給出了較為明確的TDP範圍。擴展型號支持15W到54W的可配置TDP區間,並採用25×40mm的BGA封裝。這樣的功耗與封裝組合,使其能夠適配從緊湊型嵌入式設備到中等規模工業主機的不同散熱設計。
此外,P100系列也延續了AMD嵌入式產品線的關鍵特性——長期穩定運行能力。「官方資料顯示,P100系列面向24/7連續運行場景設計,並提供最長10年的延展生命周期支持。這對於工業自動化、醫療設備以及邊緣伺服器等長期部署場景尤為重要。
在記憶體子系統方面,不同核心數量的型號也提供了不同等級的帶寬支持。P121與P132等型號的LPDDR5X最高支持7500MT/s,而8核以上的P164、P174與P185及其工業溫度版本則可提升至8533MT/s。在標準版與工業版本中,DDR5最高支持5600 MT/s 並提供 ECC;車規型號的LPDDR5X 支持7500 MT/s,並提供RAS 特性支持
在糾錯機制上,AMD採用了不同類型的ECC策略:LPDDR5X側使用link ECC,而DDR5則採用sideband ECC。這種組合為持續運行的AI推理與視覺處理任務提供了更高的數據可靠性。
I/O方面,P100系列最高支持16 lane PCIe Gen4,可連接高速NVMe、相機模塊或其他協處理器設備。在標準版與工業版本中,提供2個USB4 接口,並支持USB 3.2、USB 3.1和USB 2.0的組合配置。
需要特別說明的是,10GbE Ethernet Cores with TSN並非覆蓋全系列型號。這一能力僅出現在P121、P132及其衍生型號上,而P164、P174和P185對應位置為N/A,因此在系統設計中需要根據具體型號確認網路能力。
04 iGPU+NPU「攜手」上陣 邊緣異構計算進入「協同時代」
在P100系列的整體設計中,AMD提出了明確的架構思路——「End-to-End AI Acceleration: iGPU + NPU」。與傳統「AI加速器即NPU」的思路不同,P100系列將AI負載在不同計算引擎之間進行分工:NPU主要負責低功耗、持續運行的Always-On任務,而GPU則承擔突髮型或高並行計算需求的工作負載。
在這種調度模型下,不同類型的AI任務會被分配到最合適的執行單元。例如,常開型對象檢測、環境感知或喚醒模型更適合運行在NPU上,而複雜視覺處理、視覺語言模型(VLM)以及部分邊緣LLM推理,則更容易受益於GPU的並行算力。
事實上,當邊緣AI場景的模型結構越來越複雜,單一加速器往往難以在功耗、延遲和吞吐之間取得平衡。因此,P100引入了更靈活的執行方式——Hybrid Mode,即在同一工作負載中同時使用多個計算引擎。
以邊緣LLM或VLM為例,模型的執行過程通常可以拆分為多個階段。
輸入側需要完成高帶寬的數據攝入與預處理,而在推理階段則更強調持續生成與交互延遲。這背後的設計思路在於將突髮型、高吞吐的計算任務交給iGPU處理,而將持續運行、功耗敏感的推理任務交由NPU執行。
這種協同方式帶來的收益主要體現在系統層面。通過在不同引擎之間分配負載,系統可以在保持響應速度的同時降低整體功耗,並提高AI任務在長時間運行場景下的穩定性。
為了實現這種調度模式,AMD也在軟體層面做了相應布局。AMD在官方資料中提到,軟體棧會針對不同計算引擎進行優化,並通過統一的開源框架支持,讓開發者能夠根據任務特性靈活選擇執行引擎。從基礎模型到定製模型,從視覺類CNN到推理類LLM或VLA,都可以在同一平台上進行部署。

硬體架構決定了系統能力的上限,而軟體生態則決定了平台的可用性。P100系列在軟體層面的一個重要信號,是AMD開始將數據中心與HPC領域成熟的ROCm生態向嵌入式GPU延伸。
AMD將這一策略描述為「Cloud-Proven AI, Now Embedded-Ready」。簡單來說,開發者可以在雲端使用熟悉的AI框架進行模型開發,然後將工作負載遷移到邊緣設備,無需完全重寫軟體棧。對於計劃構建雲邊協同系統的企業來說,這種工具鏈連續性能夠顯著降低部署成本。
HIP同樣是這一生態的重要組成部分。作為AMD提供的GPU編程層,HIP允許開發者在較小改動的情況下將代碼遷移到AMD平台,從而減少對單一廠商生態的依賴。在用戶開發流程中,開發者可以直接在PyTorch等主流框架中選擇AMD iGPU作為後端,而編譯器則負責完成大部分底層適配工作。

除了GPU與AI軟體棧之外,P100在CPU平台軟體方面也提供了較為完整的支持。AMD在公開資料中強調,其「虛擬化與確定性多任務平台」能力,包括預驗證的工業參考軟體棧、系統分區機制、Yocto定製構建以及多作業系統協同運行等特性。Linux、Windows和RTOS可以在同一系統中協作運行,以滿足工業自動化、醫療設備等場景對實時性與穩定性的要求。
從整體來看,P100的異構計算設計是通過統一的軟體生態,讓不同計算引擎能夠在同一平台上協同工作,從而提升邊緣AI系統的整體效率與可部署性。
05 工業、機器人、醫療,P100系列釋放場景「勢能」
強大性能參數,最終也都需要落回真實的場景中。
在智能製造產線上,機器視覺檢測、PLC控制,以及人機界面(HMI)通常運行在不同設備上。一條產線往往需要多個計算節點協同工作。
P100面向的工業PC平台的作用,就是將這些功能整合到同一台系統中。

CPU負責實時控制邏輯和工業軟體運行;GPU處理多路攝影機視覺數據以及複雜HMI界面渲染;NPU則執行低時延AI推理(如缺陷檢測和異常識別)。系統可以運行DeepSORT、RAFT-Stereo、CenterPoint、GDR-Net以及PaDiM等視覺模型,並支持Llama3.2-Vision等視覺語言模型,用於更複雜的產線檢測與場景理解。
圍繞這一方向,研華科技(Advantech)已經推出基於P100系列的嵌入式產品組合,覆蓋電腦模塊、單板電腦以及邊緣AI系統,使工業PC能夠在同一平台上同時承擔控制、視覺與AI計算任務。
自主移動機器人(AMR)是P100擴展到8至12核心配置後重點瞄準的應用場景之一。與固定工業設備不同,機器人平台通常依賴電池供電,同時需要持續運行導航、視覺感知和環境理解算法。
在這一系統中,CPU負責導航、路徑規劃與運動控制;GPU處理多路攝影機數據,實現空間感知、VisualSLAM,以及視覺-語言-動作(VLA)模型等複雜AI任務;NPU則承擔低功耗、持續運行的推理任務。
CPU與GPU之間的統一記憶體架構可以減少數據拷貝帶來的延遲,使機器人能夠更快完成從感知到決策再到執行的閉環響應。
目前,congatec已經將P100系列納入其嵌入式計算模塊產品線。該平台提供4至12核心配置以及可擴展GPU性能,使設備廠商能夠根據不同機器人系統需求,在性能、功耗與成本之間進行靈活配置。
醫療影像設備是另一類對邊緣計算能力要求極高的系統。以超聲和內窺鏡設備為例,系統需要完成信號採集、圖像重建、三維渲染以及AI分析等一整套計算流程。

在基於P100系列的系統平台上,設備可以在本地運行U-Net、nnU-Net和MONAI等醫學影像模型,實現組織分類、腫瘤檢測,以及3D影像分析。同時,通過MedSigLIP可以加速從影像到報告的生成流程,而Med-PaLM2則能夠提供醫學問答和臨床推理能力。
針對這一類系統,Kontron推出了基於P100系列的K4131-Px mITX平台,可在緊湊尺寸下提供4至12核心配置的AI加速能力,為醫療影像和其他邊緣AI設備提供完整的嵌入式計算平台。
06 寫在最後
從場景端看,過去幾年,邊緣AI發生了很關鍵的變化。
早期很多項目本質上還是「AI+設備」,AI只是附著在系統上的一個功能模塊,比如做檢測、分類、預警,完成後再把結果交給其他系統處理。現在,越來越多項目開始進入「AI即流程一部分」的階段,模型輸出會直接影響動作執行、參數調整、流程調度和人機交互。
這就意味著,邊緣計算平台已經不再只是識別平台,而是在向現場決策平台演化。也正因為如此,半導體廠商之間的競爭重點正在發生變化。
過去,做嵌入式市場,很多時候拼的是穩定供貨、溫度等級、I/O豐富度和軟體兼容;做AI市場,拼的是TOPS、模型支持和框架適配。
而今天,這兩套邏輯正在合併,客戶希望拿到的是既懂嵌入式約束、又具備AI異構能力的平台型產品。誰能把CPU、GPU、NPU、記憶體帶寬、顯示、多系統支持和長期生命周期整合到一個順滑的產品定義里,誰就更容易拿到下一階段的設計導入機會。
從產業鏈位置來看,這類產品還有一個深層意義。其正在幫助邊緣市場擺脫對「多板拼接」「外掛加速」的路徑依賴。
以往,不少設備為了補齊性能短板,只能通過堆料方式完成系統能力建設,結果是功耗、成本、維護複雜度和認證難度一起上升。而隨著邊緣側工作負載越來越複雜,這種做法的收益邊際已經開始下降,市場需要的不是更多分立模塊,而是更高密度、更可複製、更利於大規模出貨的平台。對於OEM和ODM廠商來說,這會直接影響整機設計、散熱結構、主板布局、BOM控制,以及後續產品線延展。
再往後看,邊緣晶片廠商之間真正拉開差距的,未必是某個引擎的絕對性能,而是場景穿透能力。能不能進入工廠主控層,能不能進入機器人控制器,能不能進入醫療終端核心計算板,能不能拿下廣電影片和測試測量這類要求很細的專業市場,決定了產品最終是停留在「可展示的AI能力」,還是成為「可規模部署的行業平台」。這類市場一旦導入成功,客戶黏性、生命周期和平台復用價值都遠高於消費級賽道。
所以,此次P100系列的擴展其實帶有明顯的產業「卡位」的意味,也折射出越來越清晰的產業趨勢:邊緣計算正在從「功能增強」進入「平台重構」階段,晶片廠商也開始從賣器件能力,轉向賣系統整合效率。
接下來幾年,誰能把這種效率真正落到行業場景里,誰就更有機會在邊緣智能的下一輪競爭里占到更靠前的位置。
回到產品本身,對於有相關採購需求的用戶而言,目前,配備8至12核的P100系列處理器現已開始提供樣品,預計將於2026年7 月起進入量產出貨階段;4至6核版本目前同樣已開始提供樣品,預計將於2026年第二季度實現量產。






