高頻寬內存左移測試策略助力AI晶片良率提升

高頻寬內存（HBM）堆疊層數不斷增加，矽通孔（TSV）間距持續收窄，這些變化正在對AI模組的最終良率產生深遠影響。應對之策是將測試環節前移至製造流程的更早階段，但這一轉變也伴隨著額外成本的挑戰。

贊助商廣告

HBM已成為AI系統的核心組件。隨著需要處理和儲存的數據量持續攀升，AI系統對內存的需求近乎無止境。過去十年間，HBM晶片堆疊層數已從2層增長至12層，並即將突破16層。與此同時，AI數據中心多晶片封裝中的HBM堆疊數量也從4個增加至8個。

如今，HBM晶片的成本幾乎占AI晶片總成本的一半。因此，在最終測試階段才發現存在缺陷的內存堆疊，將造成極高的損失。這正是業界越來越重視"已知良好堆疊"（KGS）的核心原因。然而，晶片堆疊本身是一項精密而複雜的製造工藝：TSV與微凸點的對準精度以微米為單位；晶圓減薄和劃片過程中產生的機械應力，可能加劇已有的裂紋、滑移和劃痕；熱壓鍵合則可能引發斷路、短路以及"枕頭效應"和高阻抗連接等問題。

更棘手的是，檢測這些潛在缺陷本身就是一大難題。堆疊晶片測試需要在測試覆蓋率與測試時間、機械處理、熱管理以及供電之間尋求平衡。工程團隊雖然可以通過可測性設計（DFT）和高並行多站點測試來降低測試成本，但堆疊晶片因堆疊高度大、功耗高，熱管理問題相當棘手。而隨著HBM4和HBM5的到來，這一切都將變得更加複雜。

新思科技（Synopsys）SLM產品管理總監Faisal Goriawalla表示："來自超大規模數據中心的數據顯示，HBM故障是數據中心GPU故障的首要原因。研究同樣表明，由於其複雜的垂直堆疊結構，HBM比傳統DRAM更容易出現故障，其中列故障（如TSV缺陷）尤為常見。從HBM3升級到HBM4，將需要在多晶片支持方面進一步演進。2048位內存接口要求顯著增加穿越內存堆疊的TSV數量，這意味著隨著微凸點總數大幅增加，外部凸點間距必須進一步縮小。此外，對16層高TSV堆疊的支持，為在不引入缺陷的前提下連接更多DRAM晶片帶來了全新的複雜性。"

贊助商廣告

這一現狀迫切要求在製造流程更早階段開展更多測試，從而在封裝之前將有缺陷的堆疊淘汰出局。目前，為了生產可交付的HBM堆疊晶片，測試流程在晶圓級和堆疊晶片級均包含多個測試插入點：HBM邏輯晶片和HBM DRAM晶片均需經過晶圓測試；每顆DRAM還需經歷多次測試插入，包括晶圓級老化、高低溫測試以及修復。之後，DRAM晶圓經過減薄、植球和劃片，再將DRAM晶片堆疊至邏輯基底晶片晶圓上，並進行一系列測試。具體測試節點因封裝廠的工藝不同而有所差異——可在每層DRAM堆疊後進行，也可在堆疊2層或4層後進行，最終完成堆疊晶圓劃片。

從理論上講，可以對已劃片的HBM DRAM堆疊單獨進行測試，但目前這一方案尚未投入實際應用。

泰瑞達（Teradyne）內存事業部產品營銷經理Hanh Lai解釋道："左側測試流程是當前的行業標準。它被認為是最具成本效益且風險最低的方案，因為無需對已劃片的堆疊晶片這類特殊結構進行探針測試，儘管在晶圓上堆疊晶片確實存在平整度挑戰。不過，業界對已劃片堆疊晶片的測試興趣正在增加，探針設備企業也在積極開發相應解決方案。其背後的驅動力在於，英偉達高頻寬內存左移測試策略助力AI晶片良率提升（Nvidia）、超威半導體（AMD）等系統集成商非常關注最終封裝良率——在典型的GPU封裝中，一顆GPU周圍環繞著八個HBM堆疊，任何一個HBM堆疊出現缺陷，損失都極為高昂。"

隨著單顆壞晶片或壞堆疊的成本不斷攀升，測試左移的呼聲也越來越高。

Aehr Test Systems銷售與市場營銷執行副總裁Vernon Rodgers表示："歸根結底，這是成本問題。降低報廢率、提升良率、減少浪費，這些目標共同驅動著測試方案的選擇。也許過去左移的代價過高，但如今良率成本曲線正在越來越強烈地推動測試向更早階段遷移。以晶圓級老化測試為例，它能有效減少與早期失效相關的缺陷。隨著堆疊層數增加、封裝尺寸增大，這一點只會變得愈加重要。"

贊助商廣告

FormFactor高級產品營銷總監Kevin Tran也持相同觀點："隨著HBM器件的複雜度和成本不斷提升，測試內容持續向流程前端遷移。這種左移有助於防止缺陷晶片進入成本高昂的堆疊工序，同時推動晶圓測試階段對高速測試、更大並行度以及更嚴格熱控制的需求。"

晶圓測試與老化

實現"已知良好堆疊"的起點，是確保每顆晶片為"已知良好晶片"（KGD）。對每顆DRAM及邏輯基底晶片進行全面的晶圓測試，需要覆蓋內部電路、核心儲存單元以及TSV。

DRAM測試需要數千種針對特定內存架構的測試圖案。由於儲存單元密度極高，冗餘修復技術在測試過程中發揮著至關重要的作用——缺少它，晶圓級良率將大幅下降。測試圖案由自動測試設備（ATE）提供，為降低測試成本，DRAM晶片通常以64至128個站點並行測試。

業界專家強調邏輯基底晶片測試的重要性，因為它是訪問堆疊內存晶片的唯一通道，對堆疊晶片的最終良率影響舉足輕重。Rodgers指出："考慮一個堆疊結構——一顆邏輯基底晶片加上8到16顆HBM晶片。確保基底邏輯晶片的最高質量至關重要，因為一旦它存在缺陷，16顆晶片都將一併報廢，這對良率曲線的影響是巨大的乘數效應。"

邏輯基底晶片的測試重點集中在DFT電路上，這些電路支撐著HBM DRAM在整個堆疊過程及產品全生命周期內的測試能力。測試通過JEDEC規範的直接訪問接口或IEEE 1500標準，利用有限數量的焊盤或微凸點來實施。在邏輯晶圓測試階段施加測試內容，可確保內部邏輯、IEEE 1500電路、直接訪問總線、內存內建自測（MBiST）、TSV連通性以及PHY電路均無缺陷。

然而，隨著HBM每一代產品的演進，晶圓探針測試的挑戰也在不斷加劇。

Tran表示："在先進DRAM工藝節點（尤其是HBM所採用的節點）上，晶圓級測試已不再局限於接觸和功能篩選，而是演變為涵蓋機械性能、供電、信號完整性和吞吐量等多個維度的綜合挑戰。焊盤幾何尺寸縮小的問題，可通過先進MEMS探針技術來應對——該技術能夠提供更小的間距和更優的精度控制。HBM4和HBM5對速度與功耗提出了新要求，未來幾代產品的數據傳輸速率將突破10 Gbps，每個HBM堆疊的功耗也將高達100瓦。MEMS探針具備更高的電流承載能力，與經過優化的探針卡級供電設計相結合，能夠滿足KGD測試的高功率、高速度需求。"

贊助商廣告

典型的DRAM測試流程包含晶圓級老化環節，通過加速激活潛在缺陷，以便後續標準測試能夠有效檢出。Rodgers解釋說："老化測試解決兩個問題：第一，篩查薄弱器件，例如柵氧化層缺陷問題；第二，由於儲存單元本質上是電容，需要對其數值進行穩定化處理。行業內一直存在爭論——究竟應該在晶圓級、單顆晶片級還是封裝級進行老化？但現在，當我們開始進行晶片堆疊時，目標是儘量前移，這正是推動晶圓級老化測試興起的核心驅動力。"

晶圓級老化測試的接觸方案需要應對探觸測試訪問焊盤/凸點時的機械挑戰，可通過MEMS技術或微彈簧針（micro-pogo）來實現，適用於300mm晶圓。

將DFT與鋁製測試焊盤上的探針測試相結合，有助於進一步降低測試成本。在規定HBM I/O微凸點布局時，JEDEC標準預留了添加犧牲測試焊盤的空間。Rodgers指出："當你使用犧牲焊盤並適當拉開間距時，探針卡的成本會大幅下降，無需花費50萬美元購置一張探針卡，最高可節省80%的探針卡成本。DFT不僅保障了測試質量，更重要的是，它帶來了一種低成本的晶圓級老化測試方案——你可以選擇微彈簧針而非MEMS。我可以在兩個截然不同的成本區間提供技術方案，而DFT將決定你實際所處的成本層級。"

堆疊晶片測試

對堆疊晶片進行測試，能夠有效降低AI產品最終測試階段的良率風險。如前所述，當前標準的製造與測試流程是在晶圓形態下將HBM堆疊至基底晶片上，再由測試接口從晶圓背面進行探針測試，多站點並行測試已成為行業標配。但晶片堆疊在熱管理、供電以及機械處理方面帶來了嚴峻挑戰，而隨著測試插入次數的增加，控制測試成本也愈發困難。對於12層堆疊晶片而言，測試插入次數因封裝廠的質量標準不同，可從3次到12次不等。

Tran指出："DRAM晶片堆疊過程中可能引入新的錯誤，包括堆疊內部高速數據傳輸相關問題、更高堆疊對更大功率和電流的需求，以及由此帶來的散熱挑戰。通過對堆疊晶片進行測試和分選，可以在早期剔除缺陷晶片，從而有效降低整體測試成本。堆疊晶片測試要求對準精度達到個位數微米級別，而HBM5要求最高16層堆疊，這使得對準精度的要求愈發嚴苛，必須充分考慮TSV和鍵合容差。"

贊助商廣告

也有觀點強調了在封裝過程中進行中間測試的重要性。

安靠（Amkor Technology）全球測試服務副總裁Omer Dossani表示："隨著HBM成本持續攀升，封裝過程中的中間測試變得越來越關鍵。為此，業界正在開發新型接觸機制，以實現在中間階段的可靠測試。許多挑戰在我們工廠進入大批量生產（HVM）階段之前便已得到解決，但它們仍是重要的製造考量因素，需要在測試過程中對溫度穩定性實施越來越嚴格的管控，並使用專用測試插座、專用清潔材料，以及在整個製造過程中加強數據監控。"

在測試方案的選擇上，供電和熱管理始終是核心考量，但隨著堆疊高度增加，複雜程度也隨之上升。Rodgers用了一個生動的比喻："如果你看一棟16層的建築，陽光照射外牆，中心部分幾乎感受不到熱量。而堆疊晶片恰恰相反——外層可以散熱，但中心層的熱量如何導出？在堆疊晶片老化或測試過程中，如何管理中間晶片層的溫度至關重要。"

Teradyne的Lai也指出了這一問題："難點在於如何管理這些器件產生的熱量。探針設備公司需要為HBM堆疊提供有效散熱方案。目前，我們的測試機可根據器件引腳數和功率需求，支持最高128個器件的並行測試。從HBM3到HBM4，功耗增幅預計超過兩倍，這對探針設備和探針卡公司都提出了嚴峻的散熱挑戰。"

在2.5D集成封裝之前對已劃片的堆疊晶片進行測試，是一種頗具吸引力的左移測試方案，同時還支持主動熱控制（相對於全晶圓測試所採用的被動熱控制），能夠在測試過程中實現更精確的溫度管理。針對已劃片堆疊晶片的測試方案涉及多項技術——堆疊晶片載板、上下料設備、堆疊晶片處理機以及主動熱控制系統，均價格不菲，且都需要進一步開發成熟的HVM量產解決方案。

目前對堆疊晶片進行測試的主流方案，是在劃片前從邏輯基底晶片背面的鋁製焊盤進行探針測試，這些焊盤位於微凸點布局中預留的專用空間內。因此，ATE需要同時具備邏輯和內存測試能力，在多達128個測試站點並行測試時，供電需求極為可觀。

贊助商廣告

將DRAM堆疊至基底晶片後，可利用邏輯基底晶片的MBiST（通常可編程）或直接訪問總線對核心儲存單元進行測試，並在每次測試插入時對有缺陷的TSV實施修復。

Goriawalla表示："SoC設計者必須能夠部署一套靈活的BiST引擎，支持在不同應用場景（製造測試、上電自測（POST）、系統內調試與診斷）下切換不同算法，以實現高覆蓋率與測試時間之間的平衡。該引擎必須可編程，以適應不同DRAM廠商在延遲、地址範圍及測試操作時序上的差異，還可能需要支持針對HBM DRAM的封裝後修復（PPR），以推遲現場服務的介入時機。BiST引擎所執行的診斷必須精確到位，能夠在檢測到DRAM堆疊存在缺陷時，準確指出發生故障的Bank、行地址、列地址等資訊。"

結語

儘管HBM DRAM廠商目前具有一定的溢價能力，但其核心關注點依然是降低成本。Teradyne的Lai指出："內存廠商的思維模式是，測試方案必須經過優化且儘可能低成本——這一點比那些產品生命周期極短的SoC廠商更為突出。HBM廠商在這個競爭激烈的市場中深耕多年，歷來利潤空間有限。"

儘管如此，報廢損失帶來的經濟壓力正在推動HBM堆疊晶片廠商在流程更早階段開展更多測試，這不可避免地增加了測試成本。但這一成本或許能通過在基底晶片上部署靈活的MBiST來部分抵消，後者允許對測試內容進行靈活權衡。然而，以高並行度對堆疊晶片進行測試，對ATE的供電和散熱方案提出了更高要求。此外，對已劃片堆疊晶片進行測試的方案仍有待驗證，其經濟影響尚存不確定性。

Q&A

Q1：為什麼HBM測試需要向製造流程的更早階段遷移？

A：隨著HBM晶片堆疊層數增加（最高可達16層），單個壞晶片或壞堆疊的損失成本急劇攀升。HBM成本已接近AI晶片總成本的一半，如果缺陷堆疊到最終測試階段才被發現，損失極為高昂。通過在製造流程更早階段（如晶圓級老化測試）篩查出缺陷，可以避免缺陷晶片進入昂貴的後續堆疊工序，從而有效降低報廢損失，提升整體良率。

贊助商廣告

Q2：HBM堆疊晶片測試在熱管理方面面臨哪些挑戰？

A：堆疊晶片的散熱問題與普通晶片完全不同。外層晶片可以正常散熱，但中間層產生的熱量難以有效導出。隨著HBM從HBM3升級到HBM4，每個堆疊的功耗預計增加超過兩倍，未來甚至可能達到100瓦。這對探針設備和探針卡公司提出了嚴峻挑戰，需要通過主動熱控制等手段，確保測試過程中各層晶片的溫度均處於可控範圍內。

Q3：DFT（可測性設計）在降低HBM測試成本方面具體能發揮哪些作用？

A：DFT在降低HBM測試成本方面作用顯著。一方面，通過在微凸點布局中預留犧牲測試焊盤，可將探針卡成本降低高達80%，無需購置價格高達50萬美元的高端探針卡；另一方面，基底晶片上可編程的MBiST引擎支持在製造測試、上電自測和系統內調試等不同場景下靈活切換測試算法，在測試覆蓋率和測試時間之間實現最優平衡，從而在保證測試質量的同時有效控制成本。