從Nitro系統的初次亮相,到Amazon Graviton、Amazon Trainium、Amazon Inferentia的接連推出,一場從底層硬體到應用層的技術革新悄然展開。這不僅是一次技術上的自我革新,也是一種將硬體創新與雲服務深度結合的獨特探索。
在這場革新中,Graviton無疑是最具代表性的存在,其充分體現了亞馬遜雲科技從用戶需求出發,不斷追求極致的創新精神核心。推出Graviton的驅動力主要有兩個目標,第一,滿足現代化應用對計算架構日益複雜的要求;第二,為客戶提供更優性價比的選擇,把最終選擇權交給客戶。
亞馬遜雲科技也兌現了這些承諾,從高性能計算到機器學習,再到大規模生產的雲服務,Graviton展現了跨領域的廣泛適配能力,十年間書寫了自研晶片的新篇章。
晶片裡的極致追求
「經驗沒有壓縮算法」是亞馬遜CEO Andy Jassy經常談到的一句經典論斷。做雲是如此,做晶片亦是如此。
打造自主設計的Arm伺服器晶片已成為大多數雲服務商的共同選擇。這不僅是出於成本優勢的考量,更重要的是能夠實現高度定製化,從底層基礎設施入手,根據特定用例進行優化,提升整體性能和效率。
亞馬遜雲科技已經擁有超過十年「自研晶片」的歷程,從2013年亞馬遜高級副總裁兼傑出工程師James Hamilton提出開發定製硬體業務策略,並被亞馬遜雲科技領導層所採納。這一決策的初衷是為客戶提供更多創新可能,同時也源於公司在這領城看到的巨大潛力。
2015年亞馬遜雲服務收購了以色列晶片企業Annapurna Labs;2017年亞馬遜雲科技發布了由Annapurna Labs開發的首選自研晶片Amazon Nitro;2018年re:Invent設計推出基於ARM架構的第一代Amazon Graviton,以及首代專為推理任務設計的Amazon Inferentia;2022年發布了專注於機器學習訓練的Amazon Trainium。
到2022年四大自研晶片產品組合基本已經初見雛形,每個系列都在不斷疊代更新。
亞馬遜雲科技的一系列定製晶片和加速器均由Annapurna Labs團隊負責設計和製造,並在Graviton系列的設計、生產和封裝中持續創新,不斷提升性能和效率。
James Hamilton在2022年的亞馬遜雲科技晶片創新日(Silicon Innovation Day)上,特別提到Nitro System的創新,稱其為亞馬遜雲科技硬體架構的「無名英雄」。自收購Annapurna Labs以來,Nitro系統的開發步伐顯著加快,成為推動亞馬遜雲科技硬體創新的重要驅動力。
十年沉澱,一顆芯
目前亞馬遜雲科技已推出的四大自研晶片產品組合包括:六代Nitro系統、四代Graviton、兩代Trainium和Inferentia。
過去五年,亞馬遜雲科技先後推出了四代Amazon Graviton實例。目前,基於Amazon Graviton的Amazon EC2實例已超過150多個,全球部署的Graviton處理器數量突破200萬顆,客戶數量超過50,000家。其中,Amazon EC2前100大客戶中有90%以上選擇了基於Graviton的實例。
每一代的Amazon Graviton都會比上一代有兩位數的性能提升,同時顯著降低了單位算力的能耗:
2020年 Graviton2:相比第一代,處理器性能提升7倍,計算核心數量多達4倍,緩存達到2倍,內存速度提高5倍。
2021年 Graviton3:單核性能較Graviton2提升25%,浮點性能提升2倍。與同類其他EC2實例相比,能耗降低60%,並首次在雲計算晶片中採用了性能更強、功耗更低的DDR5內存。
2022年 Graviton3E:針對浮點和向量指令運算進行了優化,基於Graviton3E推出的Hpc7g實例,矢量指令性能較Graviton3提升35%。
2023年 Graviton4:性能再提升30%,獨立核心數量增加50%以上,內存帶寬提升75%以上。
目前基於Graviton4的EC2實例包括,M8g通用型、C8g高性能計算型、X8g和R8g內存優化型實例。基於Graviton的託管服務包括,Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。
隨著機器學習應用加速,企業對更具成本優勢的GPU需求日益增長,亞馬遜雲科技在數年前就開始投入專用於機器學習訓練和推理的晶片研發。
2022年,推出了首款訓練專用晶片Trainium。針對常見的機器學習模型,基於Trainium的實例相比傳統GPU實例性能提升140%,成本最多降低70%,為客戶提供了高效且經濟的解決方案。
隨著模型進入大規模生產階段,推理成本被逐漸拉高,2018年,亞馬遜雲科技發布了針對推理的Inferentia晶片,在2022 re:Invent全球大會上發布了新一代推理晶片Inferentia 2。
一顆晶片的跨領域適配
企業在最初對於使用Arm晶片會有一定的的擔憂,但是通過多年發展,越來越多的客戶通過Graviton為其應用提供最佳性價比。
雲成本管理和優化平台Vantage調查顯示,2024第一季度,在Amazon EC2 M7系列通用實例的成本支出方面,採用Graviton的M7g系列已經超過三分之一(34.5%);2024年第二季度,在Amazon RDS、Amazon ElastiCache和Amazon OpenSearch託管服務中,客戶選擇使用基於Graviton已超越了Intel。
現在Graviton已經支持了廣泛的應用場景:
高性能計算領域,Graviton的多核和高效能特點使其非常適合科學計算、基因組學分析、天氣預報等需要強大計算能力的任務。
機器學習領域,Graviton在運行TensorFlow、PyTorch等深度學習框架時有出色表現,適合模型訓練和推理任務,尤其在需要大量數據處理和矩陣計算的場景下。
人工智慧領域,Graviton同樣可以高效支持AI應用的推理部分,如圖像識別、自然語言處理等實時AI任務,提供低延遲的計算環境。
容器化應用構建領域,Graviton對多種容器編排工具(如ECS、EKS、Kubernetes等)和鏡像倉庫(如ECR、Docker Hub等)的支持,方便用戶在Graviton上部署和管理容器化應用,適合微服務架構和DevOps環境。
數據分析領域,Graviton可以在EMR、Spark等大數據分析框架上運行,支持批處理和流式數據分析等場景,適合實時數據分析和處理大規模數據集。流行的Spark框架在Graviton3上能獲得16.7%的成本節約。
數據處理領域,無論是批量數據處理還是實時流處理,Graviton都能通過優化的實例類型提供高效的處理能力,適合ETL、數據清洗、預處理等任務。
Epic Games自2021年起就在《堡壘之夜》中大規模應用Graviton,在測試中,即使是對延遲要求極高的遊戲,Graviton3實例C7g也表現出色,且顯著提升了性價比。目前Epic Games已使用上萬顆Graviton晶片支撐遊戲業務,不僅服務於《堡壘之夜》,也覆蓋所有基於虛幻引擎的遊戲伺服器。在虛幻5引擎的教學遊戲Lyra Starter Game測試中,Graviton4相較Graviton3性價比提升超過25%,相較Intel Sapphire Rapids和AMD Genoa提升30%至35%。
亞馬遜也是Graviton的代表用戶,在2021年Prime Day,亞馬遜首次使用Graviton2支持的EC2實例,支持12種核心零售服務,這是Graviton實例首次大規模應用於高峰活動。到2024年Prime Day,亞馬遜使用了超過25萬個Graviton晶片為超過5800種不同的Amazon.com服務提供支持,是2023年的兩倍。
在宣布Amazon EC2 X8g實例正式可用的博客中,亞馬遜雲科技副總裁兼首席布道師Jeff Barr展示了Graviton4開發期間的實例集群快照,指出EC2內存優化型實例可加速EDA電子設計自動化。同時,快照顯示亞馬遜雲科技環境具備強大的彈性調度能力,峰值時數十萬個核心同時運行,規模達正常使用的5倍。
像這樣的案例比比皆是,亞馬遜雲科技通過自研晶片,重新定義了雲計算的性能與性價比基準,為現代化應用提供了高度優化的計算架構,引領了雲計算硬體的創新方向。