在本周於加利福尼亞州舉行的Hot Chips大會上,英特爾展示了一款搭載1 TB/秒矽光子互連器件的528線程處理器。該方案旨在最大程度提升分析類工作負載的處理能力,同時有效控制晶片功耗。
但請千萬不要誤會,這款晶片並非擁有超強並行能力的至強,甚至壓根沒有選擇x86架構。
相反,它是專門為DARPA的分層身份驗證漏洞(HIVE)項目所開發,採用的是自定義的RISC架構。美國軍方的這項計劃要求開發一種圖形分析處理器,其流數據處理速度要比傳統計算架構高出100倍,同時功耗還得有所降低。
圖形分析技術的作用,就是處理複雜系統中的各數據點如何與其他數據點相連接。英特爾首席工程師Jason Howard在Hot Chips上的演示中列舉了社交網路的例子,稱可以通過圖形分析工作負載來理解各成員之間的關係。
這個用例看似跟DARPA的需求八竿子打不著,但政府機構方面相信大規模圖形分析能力在基礎設施監控和網路安全方面同樣有著重要意義。
該晶片是英特爾打造的首款網格到網格光子架構,此架構採用矽光子互連將多個晶片連接起來。但英特爾並沒有選擇使用銅線對雙、四甚至是八插槽進行「縫合」,而是選擇了共同封裝的光學器件以實現數百、乃至數千晶片間的低延遲、高帶寬網格連接。
當然,這一切目前仍處於原型設計階段。
利用矽光子器件擴展圖形分析能力
其目標是開發出可擴展技術,以支持各類超大規模圖形分析工作負載。
雖然這款晶片乍看之下仍遵循標準處理器設計,針腳齊備、甚至還有一個典型的BGA接口,但跟至強-D晶片上的接口不同,流入和流出晶片的大部分數據均採用光學傳輸。這裡藉助的,是英特爾與Ayar Labs合作開發的矽光子小晶片。
中央處理晶片周圍的四塊小晶片,負責將進出微處理器的電信號轉換為由32根單模光纖承載的光信號。據我們了解,其中有16根光纖用於傳輸數據,另外16根用於接收數據。
根據英特爾的介紹,每根光纖都能在晶片內外以32 GB/秒的速率傳輸數據,由此提供總計1 TB/秒的帶寬。但Howard也提到,團隊在測試中發現實際速度只能達到理論數字的一半。
根據英特爾的設想,16塊這樣的晶片可以統一塞進一台開放計算項目(Open Compute Project)伺服器當中,並以全對全的方式實現相網際網路。此後,多台這樣的伺服器(最多可達10萬台)又能再次以全對全方式繼續聯網。結果就是,任何一塊晶片都能以極低的延遲與另一晶片進行通信,無論其具體處於哪台伺服器內。
當然,晶片巨頭在嘗試引入光學器件時也遇到了不少挑戰。Howard表示,除了傳輸帶寬只能達到宣傳數字的一半外,光纖還經常出現故障或損壞。
「每當我們把全部要素對齊到位並確保能正常工作,光纖都要鬧出各種毛病。畢竟光纖都是脆性纖維,所以經常會突然脫落。我們還發現,在對整個封裝進行回流焊接時,高溫總會影響光纖器件的性能,最終導致器件良品率下降。」
Howard解釋道,為了克服上述挑戰,英特爾必須與合作夥伴共同開發出熱故障率更低的新型材料。
為突破晶片瓶頸而生
之所以要設計這樣一套新型系統,是因為英特爾的現有商用套件雖然也能加快圖形分析工作負載的處理速度,但在擴展性方面卻面臨瓶頸。
Howard解釋道,「至強處理器能夠獲取某一圖形數據集並存儲在緩存之內,之後快速瀏覽其中內容。」可一旦需要對這些數據集進行擴展,就會出現各種性能和效率瓶頸。
為此,該團隊著手開發出一款針對圖形分析做出優化的新型處理器,並很快發現了在晶片層面進行負載優化時的幾種規律。
「我們立刻意識到這類工作負載是大規模並行的,甚至可以用極端並行來形容。因此,我們可以著力提升並行性以提高整體性能。」Howard還補充道,該團隊還陸續發現了內存和緩存利用率等優化切入點。
「當我們把緩存線引入處理器時,往往只會使用到其中的8個字節,另外64個字節往往被最終丟棄、壓根用不到。」Howard稱這會產生一大堆無序管線,給系統帶來不必要的壓力。
種種設計需求促使團隊開發出了這款實驗性處理器。此處理器由台積電的7納米FinFET工藝製造(英特爾的大量非CPU產品多年來一直由台積電負責代工),擁有8核心、每核心66線程。
Howard解釋道,這款晶片還採用了新穎的內存架構,這也是圖形分析工作負載優化的重要方式。這些晶片搭載32 GB DDR5 4400MT/秒內存,其定製化內存控制器能夠以8字節粒度進行訪問。Howard稱這種設計能保證「每當需要從內存中取出數據線時,都可儘量使用所有數據線,而不是將其中7/8白白丟棄。」
與主機系統的連接則採用8x PCIe 4.0通道。
英特爾還需要找到一種方法來處理出入計算晶片的巨大流量,理論上此流量可能高達1 TB/秒。根據Howard的介紹,正是為了滿足這一需求,晶片上才預留了大量區域來封裝路由器件。
對於這樣一塊線程和網路都相當密集的晶片,大家可能想當然認為它的發熱量會非常驚人,但事實並非如此。這款晶片在1 GHz主頻下的最高功率為75瓦。據英特爾介紹,16台伺服器的整體配置總計可容納8 TB內存、2048個核心、13.5168萬個線程,而總功耗約為1.2千瓦。相比之下,擁有112個核心和224個線程的雙插槽Sapphire Rapids系統自己就很容易達到這樣的運轉功率,所以原型設計的能效還算不錯。
英特爾設想,這些晶片能夠支撐起最高10萬台伺服器的網格計算體系當中,甚至為規模最大的圖形分析工作負載提供近線性的性能擴展支持。但這一切目前都僅僅只是設想,畢竟英特爾迄今實際測試過的就只有此架構上的雙晶片用例。
Howard解釋道,這套設計方案能否商業化,還是要看客戶們願不願意拿出真金白銀來支持。「只要大家表現出積極的消費願望,我們是非常樂意把它製造出來的。」