在本月於倫敦召開的簡報會上,Pure Storage公司CTO Alex McMullan介紹了這家存儲廠商在可擴展性、規模以及相關問題上的立場。簡報的起點是Pure即將推出的更高容量直連閃存模塊(DFM),目前75 TB版NAND驅動器已經開始出貨,150 TB版本則在拉斯維加斯的Accelrate展會上進行了預覽,最強大的300 TB版本也已被列入發展路線圖。
McMullan表示,「我們將在未來幾個月內,陸續發布更多公告。」
他認為三星和其他NAND供應商對於達到500層、甚至上千層,能夠直接提供PB級容量規模的驅動器保持著積極態度。
SSD容量正隨著閃存晶片層數的增長而不斷提升——例如,美光目前能夠支持232層晶片,而且有望將單元數量由QLC(每單元4比特)擴展至PLC(每單元5比特)。這種更高容量的NAND驅動器將需要更強大的控制器以處理數據放置、驅動器磨損以及垃圾收集(將已刪除數據的單元收集起來並供重新使用)等需求。150 TB驅動器需要跟蹤150萬億個字節,相當於1.2千萬億比特,這還不包含額外10%到20%的冗餘配置容量。在這樣的存儲規模之下,控制器的元數據存儲與處理將成為一項艱巨的任務與沉重負擔。
McMullan還補充道,「我們甚至有可能從QLC提升至更高的層數,到今年晚些時候將層數推向500甚至大幾百的水平。」
但他同時強調,「這個問題又要分兩方面來看,其一是我們能做到什麼,其二則是我們應該做什麼。」
碳足跡
這類矽器件產生的碳排放相對較高。「一套Pure Storage陣列的重量一般在40到50公斤,具體取決於其在世界範圍內的實際交付地點。但其對應的二氧化碳足跡卻高出上百倍。數據表已經明確告訴我們,從製造的角度來看,這樣一套陣列會產生4000公斤的二氧化碳,其中92%來自晶片製程工藝的端到端生產流程——從沙漠的某處開採岩石,將其粉碎、熔煉、淨化,之後才是切割成晶圓再進行蝕刻。」
「那麼問題在於,根據Gartner乃至其他分析機構的趨勢性觀點,假如我們的確正朝著ZB甚至是YB存儲時代邁進,那市場真能承受如此沉重的碳排放壓力嗎?我們該做哪些努力來儘量減少排放?」
McMullan表示,Pure的企業客戶非常重視減少碳排放,也就是說降低存儲陣列製造中的碳排放及其後續運轉所帶來的電力消耗。
「我們正在開展一系列工作,包括常規的硬體工程、進一步優化算法以及提高供應商的運作效率等。」
「展望未來,我們將在平台當中引入更好的功率優化方法,儘可能發揮能源的最大效率、而非持續保持全速運行;又或者利用AI技術進行優化,在預計耗電量較低時以更小的功率運行系統……所有這一切,都已經在穩紮穩打地推進當中。」
「哪怕是在短期之內,我們也在積極推進這方面探索。我們還製造了一款PB級的存儲驅動器,也許在不久的將來就能跨過這道具有重大意義和存儲技術里程碑……實際上,我們已經與多家NAND廠商 合作,研究這個容量規模的驅動器晶片應該是個什麼樣子。」
後NAND時代的綠色驅動器
「很明顯,我們正處於從1 TB到2 TB晶片封裝的過渡階段。但就發展路線圖而言,我們的未來目標已經遠遠超過了這個水平——應該在四到五倍,至少是四倍。而且在此之後,我們還將進一步推進,包括考慮是否繼續沿用目前的技術範式。」
這裡所說的範式,自然就是NAND SSD。McMullan提到了三種具體的候選替代技術。
「我估計三種主要候選技術分別是光學介質……第二種就是PMem,還有MRMA包括ReRAM,其速率仍然是在gb級別……這樣的性能對於嵌入式系統來說已經足夠了,但至少要把成千上萬塊這類晶片組合起來,才能達到我們目前NAND的性能表現。」
「而剩下的最後一個選項……就是DNA存儲。表面上看這種方案更加環保,但這個研究方向的具體實現,也仍然離不開矽晶片的參與。」
「我們不可能直接培養一條短鏈序列,再將其存放在試管或者冰箱當中。目前所謂酶促DNA研究的本質,仍然是生產帶有小孔的微型矽基晶片,而作為寫入介質的DNA物質需要被插入到這些小孔當中。後續訪問過程就是通過矽晶片來實現的,因此生產這類晶片肯定會產生大量與傳統嵌入式晶片相同的碳排放。」
在McMullan看來,「DNA在數據存儲密度方面的確前途光明,而且也具有良好的實現前景,但目前的……傳感器速度實在太慢了……每個小時只能傳輸4個比特左右。如果這東西是用來發送摩斯電碼資訊的,那速度肯定是夠用的。可如果想要用它來錄製影片……我覺得至少得在速度方面再提升10到12個數量級,才能達到我們目前所使用NAND晶片的水平。」
也就是說,「DNA存儲在長期歸檔等應用場景下有著不同的表現,但對於其他普適性的應用需求,恐怕至少也要到2030年才能看得到希望。」
其實最後還有第四種選擇:在玻璃基板上進行陶瓷蝕刻,類似於Cerabyte的技術方案。McMullan還專門就此與Cerabyte公司美國高管Stefen Hellmold進行了交流。
與NAND或者DRAM不同,這種存儲方案不會與存儲單元進行電路直連,因此訪問速度同樣比NAND閃存更慢。McMullan認為「目前這種存儲的首字節傳輸時間估計要接近一分鐘。但這個問題也有辦法可以解決,比如採取緩存或者預取等方式。」
網路技術
然而,這還只是多維擴展問題中的一個方面。McMullan表示,「我們正在聽取客戶的反饋和思考過程,特別是在那些PB級數據的應用場景之下。在某些極端條件下,甚至是在AI工作負載之外,部分客戶也已經開始處理EB級別的數據。」
在McMullan看來,「每一個人在面對數據管理、數據壓力以及隨之而來的吞吐量需求方面,都承受著相同的挑戰。這種挑戰不僅體現在設備之內,也體現在設備之外。英偉達公司目前的InfiniBand和Spectrum X都具有市場主導地位」,他認為這樣的壟斷現狀絕非好事。
「作為一家企業,Pure Storage公司加入了超級以太網聯盟,就是因為我們認為……以太網才是正確的前進方向,但同時也需要在速度和規模擴展能力方面再加把勁……以以太網為例,我們的傳輸容量是400 Gbps,但已經有客戶要求支持800 Gbps。」
「好在已經出現了CXL這類解決方案,我們也正在積極加以推動。其3.1規範帶來了池化、共享和內存等新機制。我們可以通過光纖實現CXL,這是一個有趣的發展方向。所有這一切,都是為了進一步加快數據的傳輸速度。」
現在,先假設我們可以通過聯合系統容納即將到來的海量數據集,並能夠以足夠快的速度通過網路傳輸數據。在這樣的前提下,「數據科學家又提醒我們,對於這樣一個龐大的集群,一套體量恐怖且快速變化的數據集,必然意味著需要使用基於排名的技術對其進行索引和標記,同時還要外掛好幾個同樣巨大的因子資料庫。它們的大小幾乎與源數據集相同——很多朋友可能完全想不到是這樣。再涉及到這些數據集之上的AI標記,整個工作量還要再次翻倍。」
McMullan指出,「我認為PCIe 5明年將再次推動一波硬體疊代。但這仍然只是一種增量化的改進,並不涉及任何基礎層面的突破。」
NAND驅動器擴展和聯網能力也即將遭遇瓶頸,再加一時找不到在速度和環保兩個方面能夠完美銜接NAND的替代存儲方案,McMullan承認自己陷入了困惑當中。而這還不算另外一個難題——軟體設計。
軟體設計
McMullan指出,「問題的本質,在於工程師們得告訴我們現在技術能夠做到什麼樣的程度。能直接聊這類超大容量驅動器的製造和交付當然是好的,但我們得怎麼調整文件系統,唯它能承載得了10萬億級別的存儲對象?這比客戶目前使用的規模要高出整整兩個數量級,而且必須保證得在2030年跟著新一代存儲系統和網路傳輸技術同步實現,這也成了我們目前需要敦促工程師們儘快實現的目標。」
「所以這就是我們目前關注的另一個重點,即如何構建一套比我們自己或者市面上的現有方案再強兩個數量級、甚至更高的系統。這會對計算、內存、網路和帶寬造成全方位的影響,而且軟體層面的挑戰絲毫不比硬體領域少,甚至還要更多。換句話說,硬體往往可以通過「堆料」的方式靠蠻力實現。畢竟只要願意,我們完全可以把控制器的數量增加到4個、8個甚至12個,但數據集的管理問題又該怎麼解決?」
「我們已經在算法方面、還有數據管理、數據壓縮等方面做了大量工作。……去年,我們在大型系統中默認配備了壓縮卡。根據我們在實際遙測、工作負載配置文件和基準層面觀察到的實際情況,目前第二代壓縮卡也即將與廣大用戶見面。」
但還是那句話,這些都屬於漸進式優化,缺乏原理層面的重大突破。
「這已經成為電腦科學領域的核心挑戰……目前我們能夠在單一文件系統上支持10億個文件,也有部分用例要求支持百億級文件,這都還好。但如果我們需要在測試系統中通過單一目錄承載2億個文件,那就對應著整個存儲體系至少要容納2000億個文件,這意味著整個測試周期可能需要幾天、某些情況下甚至是幾個禮拜。」
「我們目前正在開展大規模測試。在測試系統中,我們使用實際陣列作為接入另一陣列的偽驅動器,所以這實際上就構成一套Pure FlashArray,其中的陣列將自身傳遞給一大堆其他陣列,再將自身作為接入各個陣列的驅動器。此外我們還在推進其他大規模測試,比如在實驗室場景下,我們就測試通過了一塊500 TB的存儲驅動器——而其實質上是一套與目標設備進行直通連接的陣列……我們目前的測試主要都在圍繞這些場景展開。」
「另一個大問題就是碳排放的影響,還有如何構建起這種規模的軟體工程項目。與之相比,其他的工作就要簡單得多。如果我們能夠像種糧食那樣培植出純矽片,那肯定是件大好事。總之我們在高度關注環境影響……這也是決定我們的未來發展路線圖能否真正打造出碳友好型存儲介質的關鍵因素。」
「如今可以說是科技行業的黃金時代。但相信每位從業者也都會有一種強烈的感覺,就是無論自己走到哪裡,都像是在身處迷宮當中,似乎總也找不到出路。所以說決定一切的是我們到底能夠堅持多久……我們當然可以繼續朝著自己熟悉的方向前進,並在此基礎之上打造出更大、更強的系統。但必須承認的是,這條路走到最後,整個製造產業鏈都必將、也必須掀起一波顛覆性的變革。」
「其實展望未來可能的前路一直是件有趣的事。目前很多工程師還在挖空心思想要設想2026年的存儲平台應該是個什麼樣子——這當然是件大事。但我們現在已經幾乎來到了新的臨界點面前,我有種感覺,過去理所當然的一切幾乎都將經歷一波推倒重來。」
McMullan強調,與他交流過的企業和供應商中的IT技術從業者們,也都已經深刻感受並承認這些潛在的可擴展性挑戰。至於大家能不能趕在退休之前見證足以解決一系列現實問題的可行方法,McMullan表示機會恐怕不大。