隨著晶片複雜度不斷攀升,半導體工程領域的專家們正在探索一個關鍵問題:如何讓晶片"自我解釋"其運行狀態?本文匯集了來自Arteris、Baya Systems、Cadence、Keysight EDA、Movellus、Siemens EDA、Synopsys和Vinci等公司的頂級專家,圍繞片上數據分析與彈性設計展開深度對話。
片上監控數據的流向與分析
當片上或系統內監控器採集到數據後,這些數據將經歷一套分層處理流程。Movellus首席運營官Vikram Karvat指出,需要從數據量和延遲兩個維度來理解這一問題。傳感器每秒可產生數百GB的數據,這意味著必須在靠近傳感器的位置進行預處理和過濾,經過精簡後的數據才能在晶片內部流轉,進行進一步分析。數據離片傳輸則面臨數據所有權和安全性等一系列挑戰。此外,對於實時或近實時操作而言,數據必須在晶片內完成分析——某些場景下甚至需要在納秒級內完成響應,例如電壓驟降緩解、熱事件處理和動態頻率調節(DFS)。只有在離線分析、數據量相對較小且安全與所有權問題已妥善解決的前提下,將數據傳輸至外部分析平台才有實際意義。
Arteris產品管理與營銷副總裁Andy Nightingale補充道,一旦具備足夠的可見性,團隊便可據此調整服務質量(QoS)策略,重新平衡工作負載,優化調度決策。這是一個系統層面的整體權衡過程,涵蓋QoS調優、擁塞控制、延遲邊界管理以及反饋循環等多個維度。
Cadence Silicon Solutions Group傑出工程師Moshiko Emmer則從兩個主要層面加以分析:一是矽驗證階段的優化,二是產品交付客戶後的現場優化。他指出,設計中始終存在保護餘量(guard band),因為工藝變化導致不同芯粒(chiplet)的性能存在差異。在頻率目標和功耗性能方程的優化上,仍有相當大的空間——不僅限於矽驗證階段,在實際應用場景中同樣如此。對於多芯粒系統,芯粒之間的相互作用必須被納入考量,功耗預算等資源的共享機制至關重要,這既是挑戰,也是提升整體效率的機遇。
Baya Systems首席商務官Nandan Nayampally進一步指出,傳統做法是將數據寫入追蹤緩衝區和寄存器,通過輪詢計數器進行批量處理。但現在,實時軟體例程正在取代被動的監控機制。隨著更多數據被匯入AI數據倉庫,現場模型能夠在持續學習中不斷優化。遙測與控制能力讓系統具備了持續自我改善的智能,同時也有助於應對老化等可靠性問題。
Vinci GTM負責人Satish Radhakrishnan認為,系統需要配備一個能夠接收指令並處理數據的作業系統或等效組件。理想的工作模式類似於數字孿生——實時運行、預測性分析,僅在發現異常時介入。這要求系統具備極高的響應速度,以便在熱問題、可靠性隱患或電流異常等風險出現時,能夠及早識別並進行預防性干預。
Keysight EDA戰略規劃總監Pedro Merlo從測試視角切入,指出片上監控使保護餘量得以儘可能收窄,同時仍能滿足數據傳輸要求,大幅提升功耗效率。矽生命周期管理(SLM)的持續演進,讓工程師得以在真實工況下獲得前所未有的深度洞察,這些數據反哺數字孿生模型,形成持續優化的飛輪效應。
Siemens EDA Tessent汽車IC解決方案總監Lee Harrison觀察到,隨著監控器數量的增加,數據處理方式也在發生根本性轉變。邊緣端(即晶片本身)需要承擔越來越多的本地處理工作,既用於維持當前晶片的高效運行,也用於評估長期的可靠性趨勢。他認為,在晶片級別引入AI進行處理已具備充分的必要性。
Synopsys產品管理總監Randy Fish指出,嵌入式管理控制處理器長期以來對終端用戶透明,但其重要性日益凸顯。部分監控任務(如電壓驟降檢測)需要硬體級計算以滿足極低延遲要求,另一些則由應用處理器處理,還有部分數據需上傳至雲端進行良率診斷和質量分析。矽-SPICE模型相關性(即模型與硬體的對應關係)是縮小模擬結果與實測數據差距的重要手段,這一過程高度依賴於延遲要求和數據總量。
在此基礎上,Anirudh Darbari提供了更為系統的架構視角:片上監控器為分層流水線提供數據輸入,從矽層到固件/作業系統層,再到機群級分析層。PVT、裕量、錯誤及協議/流量監控器在本地完成聚合,而非以原始形式傳輸。系統軟體通過MMIO、管理控制器、調試/追蹤埠或系統管理總線對外暴露這些數據,並記錄至生命周期或可觀測性後端。分析棧則跨設備、跨工作負載挖掘數據,識別熱點、邊緣工況和系統性效率缺陷。整個體系形成兩條反饋迴路:一條是快速本地迴路,固件依據實時遙測調整DVFS、限流、路由和冗餘策略;另一條是較慢的生命周期迴路,機群數據驅動下一次流片的保護餘量、固件策略乃至微架構調整。他特別強調了形式化方法在分析階段的巨大潛力——當前大多數系統是"指標驅動"而非"規格驅動",真正需要的是將遙測數據與已知需求明確綁定,並通過AI智能體的訓練與推理循環生成形式化屬性和不變量,使分析系統不僅能回答"當前溫度是多少",更能判斷"我們是否正在趨近某個安全性、一致性或數據完整性屬性的可證明違規"。
片上可見性監控器的面積開銷
隨著監控能力的持續增強,監控器的面積開銷問題備受關注。
Harrison坦言,目前業界仍處於學習階段,尚無通用標準來規範監控器的類型與布局。當前的主流做法是"儘可能多地部署監控器",但隨著數據積累,未來必將走向更精細的優化與整合。
Fish指出,面積影響固然存在,但更具挑戰性的是時序收斂、功耗等多重約束。溫度傳感器需要儘量靠近熱點部署,而熱點往往位於高密度邏輯區域,因此設計階段需要大量分析以確定合理的監控器位置,避免干擾整體設計收斂。他還進一步說明了監控器的工作模式:熱傳感器通常在任務模式下持續開啟;環形振盪器等工藝檢測器則可按需切換;部分老化監控器需持續運行以建立基線對比。
Darbari認為,業界的討論重心已從"監控器值不值得占用面積"轉向"最小可接受的可觀測性基礎設施是什麼"。PVT、裕量及基礎功能健康監控器已成為不可或缺的基礎設施,與鎖相環(PLL)和可測試性設計(DFT)同等重要。真正需要管控的是"錦上添花式"可觀測性的無序擴張——額外的傳感器、逐鏈路計數器、追蹤緩衝區和遙測總線,這些會導致面積、功耗和布線的顯著膨脹。他主張採用選擇性、模型驅動的監控策略,藉助形式化證明覆蓋率和影響錐分析,精準定位對關鍵屬性影響最大的設計區域,將監控器部署在能夠最大化發揮作用的位置。
Merlo強調,核心邏輯是投資回報率(ROI)——接受一定的面積或功耗代價是否物有所值,取決於能否從系統中獲取有效資訊以支撐優化決策。隨著系統的大規模部署,行業將逐步學會區分哪些指標值得重點持續監控,哪些只是長期趨勢性觀測。
Nayampally則指出,基礎數字監控器、性能計數器等成本相對低廉,真正的開銷來自需要模擬組件和儲存器支持的專用傳感器。從晶片開發的整體成本來看,一款新晶片的研發費用高達數億美元,因此單片成本的小幅增加,遠不及前期失效所帶來的風險代價。
Karvat以Movellus最新推出的片上電壓遙測平台為例說明:設計團隊部署可見性監控器,本質上是為了優化功耗、性能或可靠性等關鍵指標。該平台能夠提供片上電壓行為的實測數據,從而收窄原本需要保守設置的保護餘量,有效釋放性能或降低功耗。在當今AI加速器的激烈競爭中,功耗與性能的提升足以彌補輕微的面積增加。
Radhakrishnan最後總結道,關鍵在於為每個組件或IP合理分配空間。藉助數字孿生進行精確仿真,並在每個位置實現全面的數據可見性,將為整體設計決策帶來顯著的價值提升。
Q&A
Q1:片上監控器採集的數據是如何分層處理和分析的?
A:片上監控器數據遵循"矽層→固件/作業系統層→機群級分析層"的分層流水線。在晶片本地,數據首先進行聚合和過濾,以應對傳感器每秒數百GB的龐大數據量。經精簡的數據再傳至系統軟體層,通過MMIO、管理控制器或調試埠上報至可觀測性後端。最終,分析棧跨設備和工作負載對數據進行挖掘,識別熱點和效率缺陷,並形成快速本地反饋迴路(調整DVFS、限流等)和慢速生命周期迴路(指導下一代晶片設計),兩條反饋迴路相互協作,實現持續優化。
Q2:片上監控器的面積開銷大嗎?值不值得部署?
A:面積開銷確實存在,但業界的討論重心已從"值不值得"轉向"最小化可觀測性基礎設施"的設計方法。PVT、裕量及基礎健康監控器如今被視為不可或缺的基礎設施,與PLL和DFT同等重要。真正的挑戰在於管控"錦上添花式"可觀測性的無序擴張。專家建議採用選擇性、模型驅動的策略,結合形式化方法精準確定監控器位置。在AI加速器競爭激烈的當下,功耗與性能的收益往往遠超輕微的面積增加,整體ROI是正向的。
Q3:片上遙測數據如何幫助改善矽-SPICE模型相關性?
A:晶片設計中,仿真模型與實際矽片行為之間往往存在偏差。片上遙測平台(如片上電壓遙測)能夠提供晶片真實運行時的電壓、溫度等行為數據,這些實測數據可與設計階段的SPICE仿真結果進行對比,幫助工程師量化並縮小"模型-矽片"之間的差距。這一過程通常被稱為"模型硬體相關性"驗證,其精度高度依賴於數據延遲和整體數據量。通過持續的現場數據反饋,不僅能優化當前產品的保護餘量設置,還能為下一代晶片的微架構設計提供更精確的輸入。






