超越傳統極限的超級計算正在悄然興起,顛覆著舊有框架;量子計算的力量在靜默中覺醒,破譯技術深處的奧秘;科學研究不斷突破,解鎖人類未知的密碼;人類積蓄「可持續」的力量,探索未解之謎和未來轉機。
當「常識」被顛覆,面對「不可名狀」的未來技術世界,這三部「啟示錄」,正來的恰如其時。
啟示一:量子計算開啟「QPU 紀元」
一直以來,量子計算面臨的挑戰是多重的,包括維持極低溫度運行環境、精確控制量子比特及其錯誤率的管理。這些技術難題一度讓量子計算的實用化「遙不可及」。
為了開展算法研究並為未來的量子優勢構建應用程序,NVIDIA利用在不同系統架構之間實現動態工作流程的橋接技術。打造出開源的CUDA-Q 量子計算平台,該平台可以作為微服務,幫助用戶實現跨量子與經典計算元件,通過一個實現CPU、GPU 和 QPU(量子處理器)協同工作的統一編程模型,實現量子電腦模擬和混合應用開發。
這其中,QPU 的工作方式與傳統的CPU和GPU大相徑庭。後者通過電流的開關狀態來代表數據位的0或1,進行資訊處理;而QPU則使用量子位,這是一種能表示多種量子態的數據單元。量子位就像是指向可能性空間中各點的時鐘指針,為量子計算提供了前所未有的多維度處理能力。利用CUDA-Q平台,可連接協同QPU和GPU模擬器,不僅能輕鬆集成工具鏈,還能實現與當下GPU加速應用程序的互操作。
與其他量子框架相比,NVIDIA CUDA-Q 可顯著加快量子計算的速度,不僅能夠在許多不同類型的量子處理器(模擬或物理)上直接執行混合代碼,還支持研究人員利用 NVIDIA cuQuantum設備加速仿真後端,以及由NVIDIA Grace Hopper™ 超級晶片提供增強支持的QPU,或連接自有的仿真器或量子處理器。這種整合極大地促進了不同計算模塊的協同工作,加速了量子計算應用的實際部署和創新。
無論是德國JSC正在安裝IQM製造的QPU,支持其配備 NVIDIA Grace Hopper™ 超級晶片的JUPITER超級電腦,推動化學模擬和優化問題的量子應用發展;還是日本AIST的 NVIDIA Hopper 架構ABCI-Q超級電腦整合了QuEra的QPU,利用銣原子開展量子計算研究,推動量子應用的實用化;亦或PSNC將新裝的光子QPU連接到由 NVIDIA Hopper 加速的全新超級計算分區,加快對生物學、化學和機器學習領域的探索。
「NVIDIA 的量子計算平台正持續助力其拓展科學發現的邊界,並推進量子集成的超級計算的前沿發展。」NVIDIA HPC 和量子計算總監 Tim Costa這樣說。
值得注意的是,NVIDIA在5月13日宣布,將持續通過開源的NVIDIA CUDA-Q™ 量子計算平台,助力全球各地的國家級超算中心加快量子計算的研究發展。
啟示二:AI讓HPC在實驗室「發芽」
在科學研究領域,研究人員面臨著前所未有的數據處理和計算挑戰。傳統計算框架能源效率低、處理速度不足的挑戰,難以支撐大規模、複雜的數據處理任務,直接影響到科研成果的速度和質量。這種背景下,生成式人工智慧在高性能計算(HPC)領域的引入,能通過高效的數據處理能力,解決科研中的計算瓶頸問題。
在代碼自動生成方面,能夠自動優化和調整計算任務,使得研究人員可以更專注於科學問題本身,減少在編程和調試上消耗的大量時間。在遺傳學研究中,生成式 AI 能夠迅速分析和模擬大規模基因組數據,加快了對遺傳變異和疾病關聯性的理解。這種技術的應用不僅加速了科學發現的過程,也為醫學研究提供了更為精確的分析工具。
目前,桑迪亞實驗室便正在利用檢索增強生成(RAG)技術創建 Kokkos 資料庫,並將其與 AI 模型打通。研究人員採用不同的 RAG 方法進行實驗,初步測試顯示出了可喜的成果。在這一過程中,NVIDIA 提供了NVIDIA NeMo Retriever等豐富工具,幫助其加快 HPC 軟體開發人員的工作速度。
NVIDIA Blackwell平台更是通過新的加速器和網路技術,顯著提升了AI、科學計算及數據分析的性能,優化了規模語言模型和各類模擬,降低能耗和成本,推動科學和技術的突破發展。
NVIDIA HPC 和超大規模數據中心副總裁 Ian Buck 表示:「AI 正在加速氣候變化研究、新藥研發和數十個其他領域的突破性研究。搭載 NVIDIA Grace Hopper 的系統能夠在提升能效的同時深入改變各行各業,因此正在成為高性能計算的重要組成部分。」
在氣候研究方面,採用NVIDIA Earth-2 的生成式 AI 模型 CorrDiff,極大增強了模型在捕捉精度,將傳統25公里的大氣模型解析度降尺度至2公里,提高了對極端天氣事件的預測準確性。
在醫學領域,阿貢國家實驗室運用 NVIDIA 的 Tensor Core GPU 和生成式語言模型 GenSLMs 加速了對新冠肺炎病毒的基因序列研究。這一技術使得研究人員能夠預測病毒的變異趨勢,為疫苗開發和病毒防控策略提供了關鍵數據。
在材料科學的應用中,微軟研究院利用 NVIDIA Tensor Core GPU 在 Azure AI 基礎架構上開發了 MatterGen 模型。這一模型可以預測和生成具有特定化學和物理性質的新型材料,從而加快新材料的研發周期,提高研究的經濟效率和安全性。
業界聲音表示,這僅僅是研究人員利用生成式 AI 推動 HPC 和科學發展的開始。在NVIDIA的幫助下,他們的工作效率將提升到新的水平。
啟示三:PUE過時了?
數據中心的能效評價正處在一個新的轉型期,舊的模式需要更新以迎接新的技術挑戰。在AI驅動的時代,不僅需要新工具,更需要新思維來衡量和提升數據中心的能效。
運營人員在超級電腦和數據中心的運營維護工作,一直面臨缺少能夠準確測量每單位能源所完成工作的標準的難題。這就像駕駛賽車過程中看不到里程表,駕駛員只能感知到速度而不能了解行進距離。
為了提升能效,數據中心迫切需要更先進的監測工具,實時展示應用程序的運行狀態,指導如何逐步提高效率。
目前,廣泛使用的能源使用效率(PUE)標準,主要通過比較設施總體能源消耗與計算基礎設施實際使用能源的比率來評估效率。雖然PUE在過去幫助數據中心逐步優化能效,但隨著AI和大數據日益增長,它顯得力不從心。
PUE的局限在於,它僅能反映能源消耗量,而不能衡量數據中心產出的實際價值,這就像評估一個汽車的效率僅僅通過它的油耗,而不考慮它行駛的距離。
目前,評估數據中心效率的標準,多達三十多項,涵蓋從冷卻系統到安全措施的各個方面。然而,這些指標往往無法全面反映出AI時代對效率的新要求。這就像電腦行業以「瓦特」作為衡量系統功率的單位,其只能反應系統在某一時刻的能耗,並不反映出整體的能效。現代數據中心的衡量標準應更關注能源總消耗(如千瓦時或焦耳)以及這些能源完成了多少有用功。
在定義數據中心的「功」時,通常使用如每秒百萬條指令(MIPS)或每秒浮點運算次數(FLOPS)等技術性指標,這些雖然精確,卻不直觀。用戶更關心的是他們的系統能完成多少實際工作,而這背後的有效功往往帶有一定的主觀性。
針對AI應用的數據中心,基準測試如MLPerf提供了一種衡量方式,而科研和商業用途的數據中心可能需要更具體的標準。
數據中心工程師Christian Belady和電腦效率研究者Jonathan Koomey都認為,隨著技術的發展和應用場景的變化,需要發展新的能效指標。這些新指標應能夠適應不斷變化的技術環境和工作負載,確保數據中心能在新時代中繼續提升其能效。
事實上,目前已經出現工作負載通過將具有並行處理能力的硬體、軟體與方法相結合的方法,實現了比CPU 更快、更高效的應用運行速度。
美國國家能源研究科學計算中心 Perlmutter 超級電腦就利用加速計算將能效平均提高了 5 倍。據了解Perlmutter 超級電腦的加速計算能力,緣於NVIDIA GPU。
經過調查顯示,Green500 榜單上排名前 50 的超級電腦中,有 39 台(包括排名第一的系統)都使用了 NVIDIA GPU。這緣於GPU 可以並行執行大量任務,因此與 CPU相比,GPU可以在更短的時間內完成更多的工作並以此實現節能。
隨著每一代 GPU 軟硬體的推出,性能提升幅度也在不斷增長。斯坦福大學的AI 研究團隊在報告中顯示,自 2003 年以來,GPU 的性能「大約提高了 7000 倍」,單位性能的能效比則 「提高了 5600 倍」。
「利用這種方法,許多行業的企業都取得了更好的成果。」一位行業分析師這樣評價道。