在快速演進的AI浪潮中，晶片設計如何應對挑戰

專家圓桌討論：晶片架構師在為邊緣AI處理器進行設計時，需要應對多項複雜因素，其中快速疊代的AI模型尤為棘手。《半導體工程》雜誌就此議題組織了一場深度對話，參與者包括：Arm邊緣AI產品管理總監Ronan Naughton、Cadence Tensilica DSP產品管理集團總監Amol Borkar、Cadence AI IP產品營銷總監Jason Lawley、Expedera首席科學家兼聯合創始人Sharad Chole、Silvaco旗下Mixel營銷總監Justin Endo、Quadric首席營銷官Steve Roddy、Rambus院士及傑出發明家Steven Woo博士、Siemens EDA IC驗證與EDA AI產品負責人Sathishkumar Balasubramanian，以及Synopsys首席產品經理Gordon Cooper。以下為部分討論內容摘錄。

贊助商廣告

邊緣端當前有哪些類型的智能體在運行？

Woo：目前大多數邊緣智能體涵蓋感知、推理，以及機器人場景下的規劃與執行。這些任務通常在同一設備上協同運行，關鍵不僅在於推理本身，還在於系統觀察、決策和響應的速度。這促使設計師重新審視內存層次結構、互連架構與安全邊界。智能體的本質是整個系統的協調運作，而非僅僅是框圖上的一個神經網路模組。

Chole：我們來釐清智能體AI與生成式AI的區別。最核心的區別在於自主性。生成式AI的運作模式是接收提示詞，然後生成響應；而智能體AI在執行高層任務時擁有更強的自主性——你賦予它高層目標，它負責統籌規劃、制定方案並推進落實。此外，智能體通常具備記憶訪問能力，可以讀取用戶指令，類似CLAUDE.md文件，並能調用工具。它不是被動的——不只是處理你給出的提示詞。它是主動的，可以查詢當前日期、天氣，或判斷你最近是否點擊過某張圖片，還可以調用你授權開放的API或工具接口。我並不是說它能訪問你的根文件系統，但它能訪問的內容相當廣泛，類似於我們人類在自己的電腦上能做的事情。這在編程場景中尤為有用，因為它可以編譯代碼、運行測試等。這一切都源於工具調用能力。此外，智能體是真正在"思考"的機器——它不只是生成內容，而是在規劃、思考，並端到端地執行任務，或對任務進行疊代。工具調用產生反饋後，智能體會基於反饋重新審視計劃。這正是智能體區別於生成式AI的核心所在——你可以將其理解為多輪交互，但"輪次"的推進是通過工具完成的，而非人工介入。也正因如此，整體處理過程變得相當複雜。它不再是"給你一張圖，生成另一張圖"這樣邊界清晰的任務。如果任務邊界明確，輸入和輸出的Token數量是有限的。但智能體並不總是如此——雖然存在最大Token限制，但實際消耗並不固定，這帶來了一系列新挑戰：可以分配什麼類型的任務？可以將任務元素縮小規模、限制複雜度或工具調用數量，但即便如此，任務複雜度本身仍然決定了完成它所需的處理量。

贊助商廣告

Naughton：我們觀察到，在私有智能體領域，用戶自託管的大語言模型不僅可以訪問私人媒體內容，還能接入日曆等個人數據。例如，我可以讓私有大語言模型在邊緣端運行定時或自動化任務，充當我的個人助理。與此同時，邊緣端編程智能體的興起也十分明顯——我可以在邊緣設備上並行部署多個編程任務，讓智能體自主運行，事後向我匯報結果。這是兩種典型的個人邊緣智能體應用場景。在移動端，我們也看到了一批新工具，能夠快速完成應用導航——我只需給出一條指令，它可能會依次打開兩三個應用來完成任務。

架構師如何在模型必然疊代的前提下啟動項目並做出決策？

Woo：性能和功耗效率正日益由內存系統設計和數據搬移決定。架構師需要深刻理解目標應用場景，並對哪些功能值得占用矽片面積做出果斷取捨，因為每一個額外特性都會影響PPA並增加複雜度，這些代價最終都會顯現出來。晶片設計師應當將數據搬移置於首位，因為性能與功耗效率的勝負就在這裡決出。此外，如何集成合適的RAS方案以實現高可靠性和高可用性，確保系統運行可預期且值得信賴，也是不可忽視的複雜挑戰。

Roddy：這要求架構師在系統中儘可能地追求通用性和靈活性，因為我們無法預知未來嵌入式智能體的形態，也無法判斷它在計算或通信方面需要多大的"馬力"。想像一下你的下一輛車可能搭載的車輛健康智能體：它應該提示你何時保養？現在是靠你自己觀察——你考慮自己的駕駛習慣，如果家人也用這輛車，你還要考慮誰在什麼時間、什麼地點開。但如果這個智能體足夠聰明，能夠知道誰開得最多，預測所有系統的維護需求，了解季節和天氣，並且知道周末快到了——它甚至可以判斷：史蒂芬一家每周末都去滑雪，輪胎快磨光了，雪況將會很差，也許應該去換新輪胎了。智能體可以掌握大量情境資訊。而同一輛車，如果停在車庫裡、只有奶奶每周日去教堂時才開，其需求就會截然不同。未來這類智能體會存在嗎？它能否適應周圍環境、主動與車主或駕駛員溝通、並從交互中持續學習？要支撐這類應用，計算基礎設施需要具備怎樣的通用性？

贊助商廣告

Lawley：在我看來，這些智能體最終都指向多模態AI。就像Steve說的車輛智能體那個例子——智能體能不能直接撥打電話，聯繫人工，和真人對話？這就需要用到音頻技術做降噪、語音識別，再結合語言模型來幫你預約服務，最後回來告訴你："你的車已經預約好了。"我看到整個智能體的世界將從根本上改變我們與計算的交互方式，尤其是邊緣端的計算。

Roddy：再延伸一下：假設你從灣區開車去南加州參加一個活動，途中車輛出了問題，智能體需要幫你在當地找一家服務中心。它能否識別你購買了延保合同？能否找到你的授權經銷商？或者根據你平時愛用Yelp、偏好五星好評服務商的習慣，為你推薦合適的獨立維修店？它應該足夠聰明，知道如何為你指路並節省時間。而這正是現在的車輛做不到的——現在的車頂多在儀錶盤上亮一個低油壓警示燈，僅此而已，不會幫你解決問題。

Lawley：從架構師視角來看，有一點是確定的：模型的靈活性至關重要。未來將出現各種不同的浮點數表示形式，智能體可能依賴多種不同類型的模型，因此讓計算單元和構建模組足夠靈活、能夠處理多樣化的模型類型，對架構師而言極為重要。

Cooper：我完全同意。你提到了多模態需求。對於我們這些在定義下一代NPU的人來說，我們正在加速的是一個與系統中主處理器協同工作的模組，這是一個系統級問題。從NPU的視角來看，核心挑戰在於：如何足夠靈活地支持正在湧現的各類多模態模型——VLA（視覺-語言-動作）、VLM（視覺-語言模型）等等。這是邊緣端NPU設計者面臨的真實挑戰。

Chole：我想從部署角度補充幾點。運行智能體工作負載時，任務是長期持續運行的，因此它們必須在後台穩定運行，這是首要前提。為了保證後台運行儘可能高效，需要重點關注以下幾點：支持MoE（混合專家）架構——因為邊緣端沒有批處理，MoE模型變得至關重要，即使是小模型也是如此；支持KV緩存量化技術，例如Turbo Content等方案——這些技術能避免反覆加載龐大KV緩存所帶來的頻寬浪費，即使採用稀疏注意力機制後智能體仍會產生大量KV緩存；運行時部署還需支持前綴緩存等內存管理機制，同時具備工具調用能力。簡而言之，我們正在將數據中心推理服務商所具備的伺服器級能力遷移到邊緣端，力求在最小化資源占用的前提下讓邊緣智能體發揮出最大潛力。至於模型未來將如何演進——坦率說，我希望儘量穩定。如果你問我邊緣端運行智能體在哪些方面優於數據中心，我目前還沒有明確答案。遺憾的是，對於聯網設備而言，除了隱私保護這一理由之外，我目前仍難以找到充分理由推薦將智能體部署在邊緣端。

贊助商廣告

當前邊緣AI或智能體邊緣AI中最值得關注的應用是什麼？

Woo：最具吸引力的應用出現在時效性要求極高的系統中，例如工業自動化、機器人和汽車傳感。這些系統藉助智能體行為，對變化的輸入做出實時自適應響應，而不僅僅是執行分類任務。從硬體角度來看，挑戰在於在處理連續數據流的同時保持低延遲——這一組合正在推動內存頻寬、功耗效率和系統級集成方面的持續創新。

Lawley：應用場景無處不在，幾乎涵蓋了所有人能想到的邊緣應用，而且還不斷有人在我們尚未想到的領域開闢出新的使用案例，很難點名某一個具體方向。

Roddy：我們看到大量製造商和系統集成商正在思考大語言模型和小語言模型如何重塑人機交互界面——無論是你與汽車的交互方式，還是工廠技師與設備的溝通方式，乃至你與廚房微波爐的互動。試想：如果微波爐沒有實體按鍵，只需語音操控，是否能降低成本？因為去掉了觸控面板和各種容易損壞的零部件，微波爐的製造成本是否可以降低？工廠設備上的麥克風、揚聲器和顯示屏，是否可以取代塞在側面板里的那本600頁操作手冊？想想節省下的印刷成本，以及手冊丟失帶來的麻煩。現在買輛新車，你不會再收到厚厚一本錯誤代碼手冊了——你只需直接問車，它就能告訴你發生了什麼。產品的物理形態正在因此發生變化，成本在降低，用戶體驗在提升，而這一切都源於能夠在邊緣端運行一個300億參數的模型。它不一定非得是智能體，但它確實讓人與設備的交互方式發生了根本性轉變。

Balasubramanian：我見到了不少正在開發中的個人健康助手，它們不只是感知，還能主動採取行動。各類應用層出不窮。Siemens與Meta合作，在工廠車間引入了Ray-Ban Meta智能眼鏡，這是人類與邊緣AI深度結合的典型案例。工人佩戴眼鏡在廠區行走，每走到一台設備旁，眼前就會彈出狀態看板，顯示一切正常、出現異常或需要維護等資訊。我不清楚這些處理到底是在邊緣端完成還是仍連接到中央節點，但這類工業應用案例正是我們所看到的趨勢——感知資訊、推斷狀態、按需行動。"如何基於感知結果採取行動"將是下一個重大命題。這是一個令人興奮的時代。我也試用過很多AI筆記工具，一個共同挑戰是功耗問題——隨著處理任務越來越多，功耗效率變得愈發關鍵。

贊助商廣告

Cooper：感知AI已經相當成熟，人們正在真正找到自己的實際應用場景，並嘗試將生成式AI融入其中。在汽車領域，車艙內的應用是一個典型例子——理論上，你可以指著窗外說"那是什麼建築"，多模態AI能夠識別你指的方向，看到車窗外的畫面，知道車輛的地理位置，理解你的提示詞，給出完整的回答。實體AI與機器人技術也正在興起——汽車、無人機、人形機器人。英偉達在快速演進的AI浪潮中晶片設計如何應對挑戰對此非常樂觀，儘管不是所有人都準備好在家裡迎接一個疊衣服的人形機器人，但這無疑是一個值得持續關注的應用方向。

我們以前見過像AI這樣如此高速的變革節奏嗎？

Balasubramanian：以我超過25年的從業經驗來看，沒有。在過去20年裡，我從未見過如此劇烈的變化。每周都有新客戶湧現，都有針對新應用的新設計項目啟動，我們一直在追趕這波浪潮。

Lawley：回顧歷史，英特爾推出x86時，與飛兆半導體之間也曾上演過一場激烈競爭，那也是一個極具創造力的時代。但今天AI的影響範圍遠比當年的半導體競賽廣泛得多。所有人都知道它——我的孩子知道，我妻子知道，我父母也知道。

Chole：機器人技術和自主化將大幅拓展邊界。我們將會看到PetaOPS級別的算力引擎。這場對話是從世界模型開始的，這非常有意思，因為這些模型必須在自主平台上運行，並且在視覺處理和Token吞吐方面都有相當高的算力需求。也許這就是我們一年後討論的主要話題。

Woo：AI帶來的變革速度，是現代半導體設計史上前所未有的。AI正在壓縮整個技術棧的疊代周期，而硬體端所感受到的壓力是最直接的。隨著新能力不斷湧現，需求被持續刷新，模型快速演進，一年前的設計假設可能已不再成立。這迫使我們採取系統性的整體設計方法，從一開始就將計算、內存、安全和I/O與軟體需求統籌規劃。這是我們思考未來晶片設計方式的根本性轉變。

贊助商廣告

Naughton：這一切呈現出相當的指數級增長態勢，而且與以往不同的是，這不再只是炒概念。我們正在見證真實的生產力提升、生活方式的改善，以及AI驅動的創新與發現。儘管這可能稍微偏離了邊緣AI的話題，但我前面提到的那些進展確實在切實改善人們的生活。當然，這些進步也伴隨著風險，我們必須對此保持清醒認知，採取審慎的步驟，確保在追求效率提升和生活質量增益的同時，充分評估和管控潛在風險。

Q&A

Q1：智能體AI和生成式AI有什麼本質區別？

A：生成式AI是接收提示詞、生成響應的模式；而智能體AI具有更強的自主性，能夠規劃任務、調用工具（如API、代碼編譯、測試運行等），並根據工具返回的反饋持續疊代。交互輪次由工具驅動而非人工介入，整體處理過程更複雜，Token消耗也不固定。

Q2：在邊緣端部署智能體工作負載，有哪些關鍵技術要求？

A：邊緣端智能體工作負載需要長期在後台穩定運行，因此對以下技術支持有較高要求：支持MoE（混合專家）架構以應對無批處理的邊緣場景；支持KV緩存量化技術以節省頻寬；支持前綴緩存等運行時內存管理機制；以及具備工具調用能力。總體來說，是將數據中心級推理能力以最小化資源占用遷移到邊緣端。

Q3：晶片架構師在設計邊緣AI晶片時，面臨的最大挑戰是什麼？

A：最核心的挑戰來自兩方面：一是性能與功耗效率高度依賴內存系統設計和數據搬移，架構師必須對矽片面積的使用做出嚴格取捨；二是AI模型疊代速度極快，多模態、MoE、新浮點格式等新需求不斷湧現，要求計算單元具備足夠的靈活性和通用性，以適應未來不可預知的模型變化。