核心要點:
模型開發速度已超越晶片設計周期,邊緣AI架構必須將適應性放在首位。
模型更新的頻率高度依賴具體應用場景,並與產品生命周期和運營風險密切相關。
適應性往往與功耗、性能和面積目標相衝突,因此有效的異構架構和完善的軟體/編譯器工具鏈至關重要。
圓桌專家觀點:當今的晶片架構師在為快速演進的AI模型設計高性能、高效能的AI處理器時,需要應對多重挑戰。Semiconductor Engineering就此議題與多位業界專家展開對話,參與者包括:Arm邊緣AI產品管理總監Ronan Naughton、Cadence Tensilica DSP產品管理集團總監Amol Borkar、Cadence AI IP產品營銷總監Jason Lawley、Expedera首席科學家兼聯合創始人Sharad Chole、Silvaco旗下Mixel營銷總監Justin Endo、Quadric首席營銷官Steve Roddy、Rambus研究員兼傑出發明家Steven Woo博士、Siemens EDA IC驗證與EDA AI產品負責人Sathishkumar Balasubramanian,以及Synopsys首席產品經理Gordon Cooper。以下為對話節選(點擊此處查看第一部分)。
模型更新頻率因應用而異
SE:AI模型移植是邊緣AI處理器設計中的重要環節。在"快速高效"的移植過程中,目標AI模型的更新頻率如何?晶片供應商或IP核供應商需要多快響應客戶的新模型移植需求?這是否因終端市場細分領域而有所不同?
Roddy:在某些細分領域,模型變化的速度正在加快。以汽車和機器人領域為例,正在發生深刻變革——從多個獨立模型串聯的方式,轉向視覺語言動作(VLA)模型這類融合了視覺處理、語言處理與控制動作的"世界模型"。傳統視覺處理高度依賴計算能力,面對4K圖像中的海量像素,需要關注乘加運算(MAC)密度;而語言模型則更關注權重的流式傳輸,參數量可達300億。VLA模型將兩者融合,對通用計算能力提出了更高要求,這類模型也在快速疊代。不過,並非所有場景都如此。以一款售價49美元、安裝在門口用於檢測快遞失竊的攝影機為例,用戶買來安裝後,可能從不更新固件,電池耗盡就直接更換新品。而另一端,安裝在路燈上用於監控交通、使用壽命長達10年的攝影機,或壽命長達20年的汽車,模型更新的需求就至關重要了。對於大多數主流應用而言,模型的疊代速度之快,甚至可能在產品出廠前就已更新。如今對靈活性的重視程度,遠超三年前以靜態視覺任務為主的時代。
Woo:新模型和優化方案湧現速度之快,使硬體廠商根本來不及跟上每一次模型變化。客戶對此有所理解,但他們同樣期望在某種模型系列占據主導地位時,能夠快速獲得更高處理速度、更大內存頻寬以及一定程度的專項優化。這給晶片架構和軟體性能工程師帶來了壓力,要求他們支持快速高效的移植以提升吞吐量、降低延遲。在消費和視覺類邊緣設備中,響應時間窗口極短,競爭優勢取決於速度與準確性;而在安全關鍵市場,模型對安全性的要求極高,因為一旦出錯,代價不可估量。
Naughton:Arm倡導異構AI理念,AI任務可以分布在整個SoC乃至不同設備之間。以個人計算為例,設想用戶戴著智能眼鏡走在街上,眼鏡通過藍牙與手機相連。眼鏡上的處理器專注於語音理解和圖像分析等特定任務,並針對該設備進行了深度優化;而手機上的任務種類繁多、更新頻繁,無論是OEM自有應用還是第三方應用,都難以預判。Arm的策略是保持完全可編程性,以應對任何工作負載。因此,不同設備、不同應用場景的模型更新頻率各不相同。
Balasubramanian:這很大程度上取決於應用場景。在西門子負責的工廠自動化業務中,汽車生產線上的邊緣AI設備所處環境相對固定,模型更新頻率遠低於自動駕駛汽車。自動駕駛需要應對大量未知場景,必須儘可能實時更新模型,因為這是關乎生命安全的關鍵任務。即使在工業場景中,一旦發生未經訓練的異常情況,也需要具備更新模型的能力。
Cooper:我認同這是應用驅動的判斷。從晶片研發到量產通常需要一兩年時間,產品還要在市場上存活5到10年,因此IP必須具備一定的靈活性以應對模型變化。從CNN到大語言模型,我們看到了相似的演進軌跡——先追求規模,再追求效率,大模型正在向小語言模型(SLM)演進。持續的技術疊代要求架構具備一定的靈活性,但這與追求極致的低功耗、小面積、高性能之間存在固有的權衡。
Borkar:模型更新的速度令人嘆為觀止,每小時甚至每分鐘都可能出現新變種。與此同時,市場正驅動著AI向各類產品滲透,即使並非最優方案,各家企業也紛紛將AI融入解決方案。對於嵌入式領域而言,最大的挑戰在於:這不像Windows系統那樣雙擊即可運行,每天都有新的算子層湧現,而我們的團隊規模遠不及大型GPU廠商。從硬體角度看,單一的NPU或DSP難以應對所有情況,通常需要NPU加CPU的異構子系統組合。從軟體角度看,編譯器工具鏈同樣至關重要——不僅要能將模型映射到硬體,還要在直接映射不可行時提供算子仿真的應急方案。最終用戶最關心的是:模型能否順暢地"輸入左端、得到右端結果",這背後需要硬體與軟體的協同配合。
Chole:模型變化的速度在很大程度上取決於NPU在處理流程中的位置——是靠近傳感器還是靠近應用層。靠近傳感器的NPU(如噪聲降低應用)更新頻率較低,因為傳感器的工作負載、幀率和延遲要求相對穩定;而面向應用層、涉及用戶交互的NPU則需要支持更多來自數據中心或學術界的新技術,包括各類量化方法和模型架構優化。真正的挑戰不在於支持新模型本身,而在於以高性能支持新模型——某一代NPU上可用的優化技術可能並不適用於所有新模型,這就形成了"架構允許的變化範圍"與"受硬體約束時模型所能發揮的收益"之間的博弈。
Lawley:對客戶而言,有兩類模型至關重要。一類是可以公開分享的參考模型,用於驗證性能;另一類則是他們的核心競爭力所在——那個不能對外公開的"秘密模型"。這使得編譯器的能力變得極為關鍵:它必須能在無法查看模型細節的情況下,將其高效映射到目標硬體。隨著模型持續演進,編譯器跟上新網路結構和算子的能力,既極具挑戰性,又成本高昂。IP公司的優勢恰恰在於可以將軟體開發成本分攤給多個客戶,而自研定製加速器的企業則往往在軟體側面臨更大壓力。
Roddy:這一點至關重要。沒有任何下游OEM願意依賴距離自己三層之外的IP授權商來完成新模型的移植。工具鏈必須足夠可靠、開箱即用。無論底層架構如何,軟體都必須讓汽車製造商的數據科學家能夠直接將更新後的算法高性能地部署到目標硬體上,而不是"勉強能跑,但只能跑在CPU上、速度降至二十分之一"。這中間不能橫亘十二層NDA協議。無論是工業場景中的智能體應用還是車載應用,我們這些IP供應商都不能成為新模型落地的瓶頸。
智能體AI帶來新挑戰
SE:隨著智能體AI的蓬勃發展,這股熱潮如何改變了你們所觀察到的工作負載類型和頻率?
Balasubramanian:圍繞智能體AI,我們看到一些大型企業和GPU供應商正在探索浮點精度的調整,以平衡精度與內存容量之間的權衡。整體工作負載正在增加,編排複雜度也在上升。邊緣AI的IP是否足夠靈活以適應這些變化,是一個關鍵問題。
Naughton:談及智能體AI,需要區分雲端智能體AI和本地/私有智能體AI兩種主要形態。在雲端模式中,設備(如手機或筆記本電腦)通過API調用雲端大語言模型完成任務;在本地私有模式中,模型運行在用戶設備上,可訪問私人數據。在這兩種場景下,Arm的CPU通常承擔編排器的角色——理解用戶意圖、分解任務、調度雲端或邊緣的智能體執行。在編排器層面,Llama、vLLM、OpenClaw等框架更新極為頻繁;智能體層面的Claude、ChatGPT、Gemini Flash等也在快速疊代,模型的更新周轉速度相當之快。
Roddy:從某種角度看,我們其實不需要過於擔心這個問題。智能體AI最令人振奮的地方在於,它代表著推理需求的一次躍升——從此前由人類行為觸發的零散推理請求,轉變為全天候7×24小時持續運行的工作負載。以工廠監控為例,如果一千台設備每天向雲端發送數十萬次查詢,每日的Token消耗費用將高達數萬美元,根本不可持續。因此,小語言模型(SLM)、VLA等必須完全在本地自給自足地運行,邊緣設備也需要配備更強的算力、更大的內存,僅在出現異常時才回傳雲端。這將深刻改變整個架構格局——總體Token需求將呈爆炸式增長,數據中心和邊緣設備都將面臨飽和壓力。
Woo:智能體AI帶來的不僅僅是更多推理請求,更是長期運行、持續積累上下文的工作負載。這將硬體設計的重點從短期、瞬時處理,轉向對持續效率、數據移動、可靠性和功耗管理的更高要求。隨著智能體之間相互通信,單個工作負載將被放大,內存容量和頻寬需求也隨之增長。這推動晶片架構向更緊密的集成和更智能的內存分層管理方向演進,而不僅僅是提升計算能力。
Chole:智能體AI工作負載的Token量非常龐大,這裡需要拆開來看。過去兩三年,隨著大模型規模不斷擴大,微調的收益已逐漸不如提示詞工程。如今,一個精心設計的系統提示可以帶來遠超微調的準確性提升——但代價是系統提示從過去的幾千Token膨脹到兩三萬Token。更重要的是,隨著大語言模型對複雜任務的理解能力大幅提升,用戶可以用更簡短的描述表達複雜意圖,這反而使得輸出的Token量大幅增加——從過去的一兩千Token,擴展到如今的數萬Token。這直接決定了應用應該運行在什麼位置。我並不確定重度智能體應用適合部署在邊緣,讓手機跑兩個小時才給出答案,顯然不現實。作為行業,我們需要認真思考:哪類智能體適合在邊緣運行,並在隱私敏感性與延遲敏感性之間找到平衡。
Cooper:從NPU的視角來看,智能體AI更像是一個系統級問題。關鍵在於NPU能否在傳統感知AI(處理傳感器輸入)和以大語言模型、VLA為代表的內存密集型計算之間靈活切換。客戶並不會直接問"你的NPU能跑智能體AI嗎",他們更關心的是"每秒能生成多少Token"或"能否高效運行這些特定模型"。智能體AI的性能評估更多是一個系統層面的問題,而非單一NPU的指標。
Lawley:如果你認為自己已經完全理解智能體AI將如何在邊緣落地,那很可能說明你還沒真正理解它。這將是推理在邊緣演進的下一個重大躍變。但無論如何演變,最終都會回歸到三個核心問題:消耗多少功耗?需要多大的數據移動量?需要多強的計算能力?
Q&A
Q1:邊緣AI處理器的模型更新頻率取決於哪些因素?
A:邊緣AI的模型更新頻率主要取決於應用場景和產品生命周期。例如,固定環境的工廠自動化設備更新頻率較低;而自動駕駛汽車、智慧型手機等產品因需應對複雜多變的場景,更新極為頻繁,甚至可能在產品出廠前就已完成多次疊代。產品使用壽命越長、應用越複雜,對模型靈活更新的需求就越高。
Q2:為什麼說編譯器工具鏈對邊緣AI晶片至關重要?
A:編譯器工具鏈是連接AI模型與硬體的關鍵橋樑。由於客戶最核心的模型往往無法對外公開,編譯器必須在無法直接查看模型的情況下,將其高效映射到目標硬體。隨著模型架構和算子持續演進,編譯器能否跟上這種變化,直接決定了IP產品的競爭力。IP公司可以將軟體開發成本分攤給多個客戶,這是相對於自研定製加速器的重要優勢。
Q3:智能體AI對邊緣設備的硬體架構有哪些新要求?
A:智能體AI將推理需求從偶發性請求轉變為全天候持續工作負載,邊緣設備需要配備更強算力、更大內存,並具備高效的數據移動能力。同時,工作負載向長期運行、深度上下文積累演進,對持續效率、功耗管理和可靠性提出了更高要求。由於將海量推理請求全部回傳雲端的成本過高,邊緣設備需具備本地自主處理能力,僅在異常情況下才與雲端交互。






