高頻寬內存(HBM)堆疊層數不斷增加,矽通孔(TSV)間距持續收窄,這些變化正在對AI模組的最終良率產生深遠影響。應對之策是將測試環節前移至製造流程的更早階段,但這一轉變也伴隨著額外成本的挑戰。
HBM已成為AI系統的核心組件。隨著需要處理和儲存的數據量持續攀升,AI系統對內存的需求近乎無止境。過去十年間,HBM晶片堆疊層數已從2層增長至12層,並即將突破16層。與此同時,AI數據中心多晶片封裝中的HBM堆疊數量也從4個增加至8個。
如今,HBM晶片的成本幾乎占AI晶片總成本的一半。因此,在最終測試階段才發現存在缺陷的內存堆疊,將造成極高的損失。這正是業界越來越重視"已知良好堆疊"(KGS)的核心原因。然而,晶片堆疊本身是一項精密而複雜的製造工藝:TSV與微凸點的對準精度以微米為單位;晶圓減薄和劃片過程中產生的機械應力,可能加劇已有的裂紋、滑移和劃痕;熱壓鍵合則可能引發斷路、短路以及"枕頭效應"和高阻抗連接等問題。
更棘手的是,檢測這些潛在缺陷本身就是一大難題。堆疊晶片測試需要在測試覆蓋率與測試時間、機械處理、熱管理以及供電之間尋求平衡。工程團隊雖然可以通過可測性設計(DFT)和高並行多站點測試來降低測試成本,但堆疊晶片因堆疊高度大、功耗高,熱管理問題相當棘手。而隨著HBM4和HBM5的到來,這一切都將變得更加複雜。
新思科技(Synopsys)SLM產品管理總監Faisal Goriawalla表示:"來自超大規模數據中心的數據顯示,HBM故障是數據中心GPU故障的首要原因。研究同樣表明,由於其複雜的垂直堆疊結構,HBM比傳統DRAM更容易出現故障,其中列故障(如TSV缺陷)尤為常見。從HBM3升級到HBM4,將需要在多晶片支持方面進一步演進。2048位內存接口要求顯著增加穿越內存堆疊的TSV數量,這意味著隨著微凸點總數大幅增加,外部凸點間距必須進一步縮小。此外,對16層高TSV堆疊的支持,為在不引入缺陷的前提下連接更多DRAM晶片帶來了全新的複雜性。"
這一現狀迫切要求在製造流程更早階段開展更多測試,從而在封裝之前將有缺陷的堆疊淘汰出局。目前,為了生產可交付的HBM堆疊晶片,測試流程在晶圓級和堆疊晶片級均包含多個測試插入點:HBM邏輯晶片和HBM DRAM晶片均需經過晶圓測試;每顆DRAM還需經歷多次測試插入,包括晶圓級老化、高低溫測試以及修復。之後,DRAM晶圓經過減薄、植球和劃片,再將DRAM晶片堆疊至邏輯基底晶片晶圓上,並進行一系列測試。具體測試節點因封裝廠的工藝不同而有所差異——可在每層DRAM堆疊後進行,也可在堆疊2層或4層後進行,最終完成堆疊晶圓劃片。
從理論上講,可以對已劃片的HBM DRAM堆疊單獨進行測試,但目前這一方案尚未投入實際應用。
泰瑞達(Teradyne)內存事業部產品營銷經理Hanh Lai解釋道:"左側測試流程是當前的行業標準。它被認為是最具成本效益且風險最低的方案,因為無需對已劃片的堆疊晶片這類特殊結構進行探針測試,儘管在晶圓上堆疊晶片確實存在平整度挑戰。不過,業界對已劃片堆疊晶片的測試興趣正在增加,探針設備企業也在積極開發相應解決方案。其背後的驅動力在於,英偉達
(Nvidia)、超威半導體(AMD)等系統集成商非常關注最終封裝良率——在典型的GPU封裝中,一顆GPU周圍環繞著八個HBM堆疊,任何一個HBM堆疊出現缺陷,損失都極為高昂。"
隨著單顆壞晶片或壞堆疊的成本不斷攀升,測試左移的呼聲也越來越高。
Aehr Test Systems銷售與市場營銷執行副總裁Vernon Rodgers表示:"歸根結底,這是成本問題。降低報廢率、提升良率、減少浪費,這些目標共同驅動著測試方案的選擇。也許過去左移的代價過高,但如今良率成本曲線正在越來越強烈地推動測試向更早階段遷移。以晶圓級老化測試為例,它能有效減少與早期失效相關的缺陷。隨著堆疊層數增加、封裝尺寸增大,這一點只會變得愈加重要。"
FormFactor高級產品營銷總監Kevin Tran也持相同觀點:"隨著HBM器件的複雜度和成本不斷提升,測試內容持續向流程前端遷移。這種左移有助於防止缺陷晶片進入成本高昂的堆疊工序,同時推動晶圓測試階段對高速測試、更大並行度以及更嚴格熱控制的需求。"
晶圓測試與老化
實現"已知良好堆疊"的起點,是確保每顆晶片為"已知良好晶片"(KGD)。對每顆DRAM及邏輯基底晶片進行全面的晶圓測試,需要覆蓋內部電路、核心儲存單元以及TSV。
DRAM測試需要數千種針對特定內存架構的測試圖案。由於儲存單元密度極高,冗餘修復技術在測試過程中發揮著至關重要的作用——缺少它,晶圓級良率將大幅下降。測試圖案由自動測試設備(ATE)提供,為降低測試成本,DRAM晶片通常以64至128個站點並行測試。
業界專家強調邏輯基底晶片測試的重要性,因為它是訪問堆疊內存晶片的唯一通道,對堆疊晶片的最終良率影響舉足輕重。Rodgers指出:"考慮一個堆疊結構——一顆邏輯基底晶片加上8到16顆HBM晶片。確保基底邏輯晶片的最高質量至關重要,因為一旦它存在缺陷,16顆晶片都將一併報廢,這對良率曲線的影響是巨大的乘數效應。"
邏輯基底晶片的測試重點集中在DFT電路上,這些電路支撐著HBM DRAM在整個堆疊過程及產品全生命周期內的測試能力。測試通過JEDEC規範的直接訪問接口或IEEE 1500標準,利用有限數量的焊盤或微凸點來實施。在邏輯晶圓測試階段施加測試內容,可確保內部邏輯、IEEE 1500電路、直接訪問總線、內存內建自測(MBiST)、TSV連通性以及PHY電路均無缺陷。
然而,隨著HBM每一代產品的演進,晶圓探針測試的挑戰也在不斷加劇。
Tran表示:"在先進DRAM工藝節點(尤其是HBM所採用的節點)上,晶圓級測試已不再局限於接觸和功能篩選,而是演變為涵蓋機械性能、供電、信號完整性和吞吐量等多個維度的綜合挑戰。焊盤幾何尺寸縮小的問題,可通過先進MEMS探針技術來應對——該技術能夠提供更小的間距和更優的精度控制。HBM4和HBM5對速度與功耗提出了新要求,未來幾代產品的數據傳輸速率將突破10 Gbps,每個HBM堆疊的功耗也將高達100瓦。MEMS探針具備更高的電流承載能力,與經過優化的探針卡級供電設計相結合,能夠滿足KGD測試的高功率、高速度需求。"
典型的DRAM測試流程包含晶圓級老化環節,通過加速激活潛在缺陷,以便後續標準測試能夠有效檢出。Rodgers解釋說:"老化測試解決兩個問題:第一,篩查薄弱器件,例如柵氧化層缺陷問題;第二,由於儲存單元本質上是電容,需要對其數值進行穩定化處理。行業內一直存在爭論——究竟應該在晶圓級、單顆晶片級還是封裝級進行老化?但現在,當我們開始進行晶片堆疊時,目標是儘量前移,這正是推動晶圓級老化測試興起的核心驅動力。"
晶圓級老化測試的接觸方案需要應對探觸測試訪問焊盤/凸點時的機械挑戰,可通過MEMS技術或微彈簧針(micro-pogo)來實現,適用於300mm晶圓。
將DFT與鋁製測試焊盤上的探針測試相結合,有助於進一步降低測試成本。在規定HBM I/O微凸點布局時,JEDEC標準預留了添加犧牲測試焊盤的空間。Rodgers指出:"當你使用犧牲焊盤並適當拉開間距時,探針卡的成本會大幅下降,無需花費50萬美元購置一張探針卡,最高可節省80%的探針卡成本。DFT不僅保障了測試質量,更重要的是,它帶來了一種低成本的晶圓級老化測試方案——你可以選擇微彈簧針而非MEMS。我可以在兩個截然不同的成本區間提供技術方案,而DFT將決定你實際所處的成本層級。"
堆疊晶片測試
對堆疊晶片進行測試,能夠有效降低AI產品最終測試階段的良率風險。如前所述,當前標準的製造與測試流程是在晶圓形態下將HBM堆疊至基底晶片上,再由測試接口從晶圓背面進行探針測試,多站點並行測試已成為行業標配。但晶片堆疊在熱管理、供電以及機械處理方面帶來了嚴峻挑戰,而隨著測試插入次數的增加,控制測試成本也愈發困難。對於12層堆疊晶片而言,測試插入次數因封裝廠的質量標準不同,可從3次到12次不等。
Tran指出:"DRAM晶片堆疊過程中可能引入新的錯誤,包括堆疊內部高速數據傳輸相關問題、更高堆疊對更大功率和電流的需求,以及由此帶來的散熱挑戰。通過對堆疊晶片進行測試和分選,可以在早期剔除缺陷晶片,從而有效降低整體測試成本。堆疊晶片測試要求對準精度達到個位數微米級別,而HBM5要求最高16層堆疊,這使得對準精度的要求愈發嚴苛,必須充分考慮TSV和鍵合容差。"
也有觀點強調了在封裝過程中進行中間測試的重要性。
安靠(Amkor Technology)全球測試服務副總裁Omer Dossani表示:"隨著HBM成本持續攀升,封裝過程中的中間測試變得越來越關鍵。為此,業界正在開發新型接觸機制,以實現在中間階段的可靠測試。許多挑戰在我們工廠進入大批量生產(HVM)階段之前便已得到解決,但它們仍是重要的製造考量因素,需要在測試過程中對溫度穩定性實施越來越嚴格的管控,並使用專用測試插座、專用清潔材料,以及在整個製造過程中加強數據監控。"
在測試方案的選擇上,供電和熱管理始終是核心考量,但隨著堆疊高度增加,複雜程度也隨之上升。Rodgers用了一個生動的比喻:"如果你看一棟16層的建築,陽光照射外牆,中心部分幾乎感受不到熱量。而堆疊晶片恰恰相反——外層可以散熱,但中心層的熱量如何導出?在堆疊晶片老化或測試過程中,如何管理中間晶片層的溫度至關重要。"
Teradyne的Lai也指出了這一問題:"難點在於如何管理這些器件產生的熱量。探針設備公司需要為HBM堆疊提供有效散熱方案。目前,我們的測試機可根據器件引腳數和功率需求,支持最高128個器件的並行測試。從HBM3到HBM4,功耗增幅預計超過兩倍,這對探針設備和探針卡公司都提出了嚴峻的散熱挑戰。"
在2.5D集成封裝之前對已劃片的堆疊晶片進行測試,是一種頗具吸引力的左移測試方案,同時還支持主動熱控制(相對於全晶圓測試所採用的被動熱控制),能夠在測試過程中實現更精確的溫度管理。針對已劃片堆疊晶片的測試方案涉及多項技術——堆疊晶片載板、上下料設備、堆疊晶片處理機以及主動熱控制系統,均價格不菲,且都需要進一步開發成熟的HVM量產解決方案。
目前對堆疊晶片進行測試的主流方案,是在劃片前從邏輯基底晶片背面的鋁製焊盤進行探針測試,這些焊盤位於微凸點布局中預留的專用空間內。因此,ATE需要同時具備邏輯和內存測試能力,在多達128個測試站點並行測試時,供電需求極為可觀。
將DRAM堆疊至基底晶片後,可利用邏輯基底晶片的MBiST(通常可編程)或直接訪問總線對核心儲存單元進行測試,並在每次測試插入時對有缺陷的TSV實施修復。
Goriawalla表示:"SoC設計者必須能夠部署一套靈活的BiST引擎,支持在不同應用場景(製造測試、上電自測(POST)、系統內調試與診斷)下切換不同算法,以實現高覆蓋率與測試時間之間的平衡。該引擎必須可編程,以適應不同DRAM廠商在延遲、地址範圍及測試操作時序上的差異,還可能需要支持針對HBM DRAM的封裝後修復(PPR),以推遲現場服務的介入時機。BiST引擎所執行的診斷必須精確到位,能夠在檢測到DRAM堆疊存在缺陷時,準確指出發生故障的Bank、行地址、列地址等資訊。"
結語
儘管HBM DRAM廠商目前具有一定的溢價能力,但其核心關注點依然是降低成本。Teradyne的Lai指出:"內存廠商的思維模式是,測試方案必須經過優化且儘可能低成本——這一點比那些產品生命周期極短的SoC廠商更為突出。HBM廠商在這個競爭激烈的市場中深耕多年,歷來利潤空間有限。"
儘管如此,報廢損失帶來的經濟壓力正在推動HBM堆疊晶片廠商在流程更早階段開展更多測試,這不可避免地增加了測試成本。但這一成本或許能通過在基底晶片上部署靈活的MBiST來部分抵消,後者允許對測試內容進行靈活權衡。然而,以高並行度對堆疊晶片進行測試,對ATE的供電和散熱方案提出了更高要求。此外,對已劃片堆疊晶片進行測試的方案仍有待驗證,其經濟影響尚存不確定性。
Q&A
Q1:為什麼HBM測試需要向製造流程的更早階段遷移?
A:隨著HBM晶片堆疊層數增加(最高可達16層),單個壞晶片或壞堆疊的損失成本急劇攀升。HBM成本已接近AI晶片總成本的一半,如果缺陷堆疊到最終測試階段才被發現,損失極為高昂。通過在製造流程更早階段(如晶圓級老化測試)篩查出缺陷,可以避免缺陷晶片進入昂貴的後續堆疊工序,從而有效降低報廢損失,提升整體良率。
Q2:HBM堆疊晶片測試在熱管理方面面臨哪些挑戰?
A:堆疊晶片的散熱問題與普通晶片完全不同。外層晶片可以正常散熱,但中間層產生的熱量難以有效導出。隨著HBM從HBM3升級到HBM4,每個堆疊的功耗預計增加超過兩倍,未來甚至可能達到100瓦。這對探針設備和探針卡公司提出了嚴峻挑戰,需要通過主動熱控制等手段,確保測試過程中各層晶片的溫度均處於可控範圍內。
Q3:DFT(可測性設計)在降低HBM測試成本方面具體能發揮哪些作用?
A:DFT在降低HBM測試成本方面作用顯著。一方面,通過在微凸點布局中預留犧牲測試焊盤,可將探針卡成本降低高達80%,無需購置價格高達50萬美元的高端探針卡;另一方面,基底晶片上可編程的MBiST引擎支持在製造測試、上電自測和系統內調試等不同場景下靈活切換測試算法,在測試覆蓋率和測試時間之間實現最優平衡,從而在保證測試質量的同時有效控制成本。






