一棟不起眼的建築坐落在美國德克薩斯州奧斯汀一個富裕地區(被稱為The Domain),大樓的第九層就是全球最具影響力的研究實驗室之一,為現代AI提供動力。
近日媒體參觀了AWS的Annapurna Labs實驗室,這家雲計算巨頭在這裡秘密設計和測試下一代AI加速器Trainium和定製雲計算晶片Graviton。
實驗室是一個即使Amazon公司員工也嚴格限制進入的區域。AWS矽晶片工程總監Rami Sinno詳細介紹說,AWS為Trainium晶片招募了一支才華橫溢的工程師團隊並展開艱巨工作,當時這還是一項完全隱秘的計劃。Sinno從Arm公司加入AWS,自該項目成立以來就帶來了大規模項目的管理經驗。
「我們組建了一個團隊,使命是提供雲規模的最佳機器學習加速器,這令人感到興奮,因為當時正處於高性能、低成本、大規模AI伺服器的早期階段。」
團隊從一張白紙開始構建架構,使用Amazon慣用的反向思考方法,從客戶想要什麼開始,想出最適合他們需求的技術。Sinno說:「我們對這種新架構的大膽押注得到了回報,因為現在我們的數據中心擁有多代Inferentia和Trainium晶片。」
該實驗室的成果將在12月2日至6日於拉斯維加斯舉行的AWS年度大會re:Invent上得到重點展示,作為今年規模最大的雲計算會議,大會預計將重點關注AI,這並不令人感到意外。人們普遍預計AWS將在此次大會上推出新的AI晶片,以此從谷歌和微軟等其廠商那裡搶占AI的發展勢頭,迄今為止這些廠商取得的成果比Amazon更為突出。
Amazon因為在AI方面似乎有些落後而受到一些批評,但theCUBE Research首席分析師Shelly Kramer不同意這一觀點,她說:「Amazon在AI方面取得了一些令人印象深刻的成就,並建立戰略合作夥伴關係以實現價值。Amazon需要做得更好的是更有效把這些故事講述出來。」
Trainium晶片
AI的關鍵作用
奧斯汀工廠並不是安納普爾納最大的實驗室空間,最大的實驗室是在以色列特拉維夫;員工也在加拿大多倫多的另一個地方工作。這個實驗室空間專門用於安置機器學習伺服器以及AWS的AI晶片Trainium和Inferentia的硬體和軟體開發工程師。在同一層樓,工程師們在測試和開發Graviton的軟體。
Annapurna的AI晶片業務及其研究,在Amazon保持AI競爭優勢的戰略中發揮著關鍵作用。在AI驅動的智能助手方面,Amazon已經落後於大型科技競爭對手,據報道,Amazon Alexa助手的生成式AI版本一再推遲。谷歌和蘋果等競爭對手在過去幾個月推出了更智能的AI數字助手。
AWS在re:Invent 2023大會上發布了最新一代Trainium2晶片,開啟了AI訓練的新時代,使訓練新模型所需的資金和功耗比以前更少。與2022年發布的上一代相比,新晶片的成本可能節省50%,能耗降低高達29%,同樣的晶片可以提供比第一代快4倍的訓練速度。
據報道,OpenAI競爭對手Anthropic PBC已開始測試Trainium2了。這些晶片目前用於訓練該公司的下一代Claude大型語言模型系列,需要大量的時間和計算。
Sinno解釋說:「AI訓練尤其需要很長時間,訓練一個模型並不需要幾秒鐘時間,而是以小時、天甚至幾周來衡量的——正常運行時間對客戶來說極其重要。在訓練的過程中,伺服器掉線是無法忍受的。因此,我們從早期設計階段就投入了大量精力來擴展數據中心質量,為我們的客戶提供正常運行時間。」
實驗室內部,一個微型數據中心。
實驗室內部
在奧斯汀實驗室,AWS還集成、測試和製作晶片所集成的硬體,以及定製矽片所交互的主板和機架的原型,這為開發和測試進入數據中心的所有設備創造了一種低成本的解決方案。把工作都集中在建築物的同一層,意味著可以加快開發過程、快速製作原型和測試。
奧斯汀實驗室有兩個實驗室,分別位於建築物的兩端。「安靜實驗室」是測試接近最終產品的地方。晶片和晶片板連接在一起,以便加拿大和以色列遠程辦公的軟體工程師可以運行診斷程序。
穿過兩組門就是安靜實驗室,這是一個小前廳,是從喧鬧的隔間和會議室到井然有序的實驗室的一個必要過渡。實驗室里工作的人出奇地少,一排排的工位上擺滿了用於主動測試的硬體組件。每個實驗室的架子幾乎都伸到天花板,裡面放著備件、大量工具和專用網路插件,用於與異地工程師一起進行虛擬測試。
安靜實驗室四周環繞著俯瞰The Domain的落地窗,這似乎是一個鼓舞人心的開發場所。整個布局中提供了端到端測試所需的空間,最大限度地減少了硬體和軟體方面其他工程團隊需要來回移動部件的次數。從3D列印到Dremel電動工具包,實驗室的部分區域可能會被誤認為是業餘愛好者的工作室。
Sinno說:「我們仍處於機器學習的早期階段,因為我們還處於早期階段,所以設計團隊必須能夠以非常快的節奏向客戶提供產品。因為如果我們的團隊需要五年時間才能交付伺服器的話,那麼可能會有兩代新的AI工作負載,而我們的伺服器無法達到這個目標。」
Sinno詳細介紹了安靜實驗室的設備和整體設置,強調擁有一個設備齊全的空間的重要性。他說,通過實現現場和場外團隊之間的實時協作,AWS就能夠把開發時間縮短數月甚至數年,而這是把產品更快推向市場的一個競爭優勢。
Kramer表示:「我非常喜歡Amazon的實時協作工作流程,這就是它的價值所在。在當今快速發展的技術生態系統中,時間就是金錢——加快開發時間對產品成功起著重要作用,這是不言而喻的。」
「大聲實驗室」是AWS測試下一代重大產品的地方。它之所以被稱為大聲實驗室,是因為需要大量風扇來保持機器涼爽,耳塞是防止聽力損失或損傷的必需品,這讓Sinno在參觀期間可以大聲回答問題,讓問答環節變得幾乎有點滑稽可笑。
Loud Lab的布局幾乎和Quiet Lab是相同的,不過考慮到維護機器所需的條件,室內人員的工作會受到限制。實驗室的建設始於新冠疫情封鎖期間,不僅要考慮疫情期間的即時辦公需求,還要考慮員工、機器和他們所在的建築物的未來需求,其結果就是實驗室空間迅速發展,旨在滿足AI領域的迫切需求,企業急切地尋求投資回報。
Sinno無法公開分享太多關於Loud Lab的資訊,但這些前瞻性的舉措表明,一個團隊正處於大事件的邊緣,興奮不已。AWS似乎正在重新思考堆棧的幾乎每個方面,以推動實現AI科幻夢想所必需的創新。
去年Amazon概述了一項廣泛的AI戰略,包括與Anthropic合作,本月Amazon向這家AI初創公司投資40億美元,此前5月份該公司投資了27.5億美元。Amazon還擴大了AI產品的範圍,包括將更先進的基礎模型引入託管生成式AI應用服務Bedrock進行訓練和部署,這表明Amazon的計劃並未放緩。
Graviton四代產品齊頭並進。圖片:亞馬遜
AWS雲計算主力:Graviton
雖然Trainium提供了高性能AI和機器學習工作負載,但基於Arm的Graviton系列晶片代表了AWS為Elastic Compute Cloud工作負載提供節能高性能定製晶片達到了巔峰。
AWS高級首席工程師Aku Saidi表示,Graviton的主要硬體設計和一些固件是在以色列的Annapurna工廠完成的,但奧斯汀實驗室的重點是軟體,兩邊的團隊之間進行了大量遠程協作,以使整個晶片整合在一起。
Graviton4是在今年7月發布的,和2022年5月發布的Graviton3相比,性能提高了30%,內存帶寬提高了75%。Graviton平台始於2018年的Graviton1,基礎技術是EC2平台的Nitro,這是一個輕量級的虛擬機管理程序,允許對計算、存儲、內存和網路進行虛擬化。當時AWS想要一個完全集成的平台。
AWS在Graviton系列上定製矽片的節奏非常快——每代大約一年半。Saidi說,為了保持這種節奏,AWS從第一天起就讓硬體團隊和軟體團隊之間進行了緊密集成。
「我們從一開始就在開發將用於部署的軟體,在物理晶片之前,我們有這些大型仿真器和模擬器,讓我們可以在其上運行實際的軟體。因此,我們可以在連接到真實Nitro卡的模擬器中運行虛擬機,進行正常交易,以證明一切都是正常的,改進軟體和流程,這讓我們能夠快速地行動起來。」
Saidi說,憑藉團隊之間這種程度的整合,團隊能夠在幾周內將晶片從規劃階段轉移到他們的一個開發數據中心。「這非常強大,」他補充道。
Graviton在AWS雲中的發展,極大地提升了AWS的整體能力和可用性。Saidi說:「現在我們的數據中心擁有超過200萬個Graviton晶片,2018年的時候還是零,」Saidi說。
在發布時Amazon表示,Graviton4晶片將被作為RC2 Rg8實例的一部分在EC2中提供,這使客戶能夠針對高性能資料庫運行改進的執行功能,為大數據分析提供改善的內存。Graviton4晶片也是X8g內存優化實例的一部分,據稱這些實例是迄今為止最節能的,具有所有同類EC2 Graviton實例中最佳的性價比。與上一代相比,新實例提供3倍的內存和虛擬CPU,並包括2倍的Elastic Block Store帶寬和2倍的網路帶寬。
AWS在re:Invent大會上表示,隨著企業在計算雲中廣泛部署新晶片,AWS將在更多實力類型中支持Graviton4。AWS預計將宣布推出下一代定製Trainium2晶片,該晶片將在新的Amazon Elastic Compute Cloud(EC2)、Trn2實例集群中提供。
鑑於AWS的AI發展軌跡和大型語言模型的快速增長,他們很可能會強調如何使用新實例為使用大型語言模型和支持向量資料庫的應用提供支持。隨著更好的軟體和硬體設計推廣到數據中心,AWS還可能在其硬體上推出新的能效指標,因為全棧設計有助於降低功耗。
奧斯汀實驗室不僅為AI晶片提供軟體和測試,而且還在實際推出之前測試和試用整個數據中心就緒的伺服器系統,這使Annapurna能夠了解晶片在現場是如何與設備協同工作的,並提供診斷、測試和進一步改進的機會。
結合AWS的AI晶片設計能力,這使Annapurna實驗室成為Amazon高風險AI戰略的核心,客戶也將在re:Invent大會上發現這是否足從微軟和谷歌等廠商那裡搶占先機。