隨著以視覺為中心的大語言模型轉向設備端部署,僅用原始TOPS來衡量性能已經不夠。架構需要圍繞真實工作負載、內存行為和持續利用率來構建,尤其是在邊緣場景。
過去十年,大多數邊緣AI晶片都是為了極其出色地完成一項工作而構建的:運行卷積網路來進行圖像分類、檢測和基本分割。隨著多模態模型從研究階段進入商業邊緣系統,這種設計思路正變得不再充分。
視覺大語言模型在單一管道中融合了感知、語義和推理能力。它們可以理解場景,回答關於所見內容的問題,總結跨時間的事件,並越來越多地幫助決定下一步該做什麼。攝影機、車輛、工業系統和醫療平台越來越多地要求在本地而非完全在雲端實現這些能力。
在設備上運行這些模型具有明顯優勢。本地推理可以降低延遲,改善隱私保護,並減少對網路連接和雲推理成本的依賴。但這也打破了第一代邊緣加速器背後的許多假設。
內存而非算力成為瓶頸
乍一看,在邊緣運行視覺大語言模型似乎是一個簡單的擴展問題:採用現有的NPU或GPU,增加更多計算和內存。但實際上,團隊很快發現瓶頸往往是內存流量和利用率,而不是理論算術吞吐量。
第一個問題是模型規模。現代基於Transformer的系統以數十億參數來衡量,多模態系統還增加了視覺前端,將圖像或影片轉換為Token供下游推理使用。結果是龐大的權重占用、大量激活值以及不斷增長的鍵值狀態,所有這些都增加了內存容量和內存頻寬壓力。
第二個問題是注意力機制。底層的縮放點積注意力機制隨上下文大約呈二次方增長,這意味著更長的提示、更豐富的多模態上下文和更大的Token數量會迅速壓垮邊緣內存子系統。即使峰值計算在紙面上看起來足夠,許多系統也會因為數據移動成為實際限制而停滯。
第三個問題是工作負載的不規則性。視覺大語言模型不僅僅是附加了圖像的Transformer。它們結合了視覺編碼器、Transformer層、前饋塊、歸一化、向量操作和輸出頭,所有這些都具有不同的形狀和重用模式。在對現代多模態圖的內部評估中,在孤立基準測試中看起來高效的模型,一旦啟用更長的上下文和完整的視覺管道,往往會顯示出較差的利用率。
三層優化方法
Expedera的視覺大語言模型研究中一個更有用的結論是,邊緣部署必須在三個層面進行優化:模型架構、系統級調度和專用硬體支持。這種框架很重要,因為它將討論從單晶片解決方案思維轉向軟硬體協同設計。
在模型層面,團隊可以考慮混合或非Transformer設計、蒸餾變體以及以較低成本保留關鍵能力的具身智能
體模型等替代方案。在軟體層面,量化、FlashAttention等分塊方法以及推測解碼有助於減少內存壓力並改善延遲。但如果底層架構仍然假設規則的層行為和逐層執行,這些技術只能起到有限作用。
這就是專用硬體支持變得重要的地方。正確的加速器不僅需要根據峰值吞吐量進行評估,還要根據它在真實多模態圖上維持利用率的能力以及控制外部內存流量的能力進行評估。
傳統NPU的局限性
當今現場的許多NPU都是圍繞以CNN為主的邊緣視覺現實而設計的。隱含地,它們假設相對規則的層形狀、可預測的分塊行為以及權重、激活值和片上內存之間的可管理平衡。
這些假設在視覺大語言模型工作負載上崩潰了。嚴格的逐層執行往往會更頻繁地將激活值溢出到外部內存,當圖在視覺編碼、注意力、前饋和向量密集型操作之間交替時,固定的執行模式效率較低。隨著上下文窗口增長和多模態融合變得更加豐富,鍵值狀態和激活值移動成為功耗和延遲的過大貢獻者。
這也是為什麼峰值TOPS正在成為邊緣性能交付的較弱代理指標。如果一個設計在合成基準測試上看起來很強,但如果它無法在工作負載從一個階段轉移到另一個階段時保持局部性和利用率,它在實際視覺大語言模型圖上的表現可能仍然很差。
基於數據包的架構
對這個問題的一個回應是重新思考硬體中的執行單元。Expedera的Origin架構採用了這種方法,將其描述為基於數據包的AI處理架構。
數據包是神經網路的小型、依賴感知片段,它們垂直穿過圖,而不是強制系統一次處理一個完整的層。這些數據包可以通過專門的處理資源進行路由,以低上下文切換開銷重新排序,並在不再需要其激活值時退出。
這種抽象的變化有幾個含義。首先,它可以提高持續利用率,因為硬體不太依賴於每一層都匹配理想的執行形狀。其次,它可以通過允許更早地消耗和退出中間數據來減少昂貴的外部內存移動。第三,數據包化不會改變模型的底層數學,因此它被定位為執行策略而不是網路精度或模型語義的改變。
視覺大語言模型作為壓力測試
視覺大語言模型是任何加速器的良好壓力測試,因為它們將多種計算特性組合到單一推理路徑中。典型的管道從視覺編碼開始,進入具有注意力和前饋層的多模態推理,並以輸出生成或動作選擇結束。
這些階段對硬體的要求並不相同。視覺前端重用了邊緣視覺中熟悉的模式,但推理路徑引入了與大語言模型相關的序列密集型、緩存密集型行為。輸出和融合階段通常依賴於向量和支持操作,這些操作在僅針對密集矩陣數學調優的硬體上服務不足。
基於數據包的架構非常適合這種異構性,因為它可以通過專門的前饋、注意力和向量塊路由工作,而不是強制每個階段使用相同的執行模型。更廣泛地說,它反映了一個可能超越任何一個供應商的設計原則:以與現代多模態圖實際執行方式相匹配的粒度表示工作。
評估標準需要演進
對於SoC架構師和軟體團隊來說,可以得出幾個結論。首先是評估標準需要演進。峰值TOPS和TOPS/W仍然有用,但它們應該由特定工作負載的度量來補充,例如持續利用率、外部內存事務以及真實視覺大語言模型圖上的尾部延遲。
其次是硬體靈活性比以往任何時候都更重要。架構應該針對包括傳統CNN、基於Transformer的大語言模型、擴散管道和更新的多模態模型在內的組合進行測試,因為邊緣產品在其生命周期內將越來越需要支持所有這些。
第三是硬體和軟體不能再被視為獨立的交付物。例如,Expedera的堆棧包括編譯器、估算器、調度器和量化器,以及核心NPU架構,強化了更廣泛的教訓,即高效的視覺大語言模型部署依賴於端到端的協同設計。
工作負載優先的思維方式
視覺大語言模型將繼續向邊緣移動,因為產品價值太強大而無法忽視。能夠理解所見內容、對本地上下文進行推理並在不將所有內容發送到雲端的情況下做出響應的設備將提供更好的延遲、更強的隱私保護,並且通常具有更低的運營成本。
因此,核心硬體問題不再是在給定的功耗和面積預算內可以容納多少TOPS。而是架構是否圍繞真實的多模態工作負載行為構建,特別是內存移動、激活值生命周期、不規則圖下的利用率以及有效調度所有這些所需的軟體。
像Expedera基於數據包的Origin NPU這樣的架構指向了一個可能的答案:以現代神經網路實際執行的方式表示工作,然後圍繞這一現實構建計算、內存和軟體。對於構建下一代邊緣晶片的團隊來說,這種工作負載優先的思維方式可能比任何單一的峰值性能數字更重要。
Q&A
Q1:視覺大語言模型在邊緣設備部署時面臨的主要瓶頸是什麼?
A:主要瓶頸是內存流量和利用率,而不是理論算術吞吐量。具體包括三個問題:一是模型規模龐大,權重占用、激活值和鍵值狀態都增加了內存壓力;二是注意力機制隨上下文呈二次方增長,會壓垮邊緣內存子系統;三是工作負載不規則,結合了視覺編碼器、Transformer層、前饋塊等不同形狀和重用模式的組件,導致利用率較差。
Q2:為什麼峰值TOPS不再是衡量邊緣AI硬體性能的充分指標?
A:因為視覺大語言模型的工作負載特性已經改變。傳統NPU假設規則的層形狀和逐層執行,但視覺大語言模型在視覺編碼、注意力、前饋和向量操作之間交替,工作負載不規則。一個在合成基準測試上峰值TOPS很高的設計,如果無法在工作負載轉換時保持局部性和利用率,在實際多模態圖上的表現可能很差。評估標準應該包括持續利用率、外部內存事務和尾部延遲等指標。
Q3:Expedera的基於數據包的架構有什麼特點?
A:這種架構將神經網路分解為小型、依賴感知的數據包片段,讓它們垂直穿過圖,而不是逐層處理。數據包可以通過專門的前饋、注意力和向量塊進行路由,以低開銷重新排序,並在激活值不再需要時退出。這樣可以提高持續利用率,減少外部內存移動,同時不改變模型的底層數學。它反映了以現代多模態圖實際執行方式來表示工作的設計原則。






