亞馬遜AWS率先導入NVIDIA Grace Hopper Superchip與Ultra Cluster可擴展雲端超級電腦,為生成式AI提供強大的雲運算基礎架構、軟體與服務

2023.11.29 02:30AM
照片中提到了片、4 PetaFLOPS TE I、HE,包含了Grace hopper 架構 晶片 gh200、GH200 葛蕾絲霍珀、英偉達、英偉達DGX、英偉達

Amazon Web Service/AWS於自家年度活動AWS re:Invent大會宣布攜手NVIDIA導入多項NVIDIA的創新硬體、技術與服務,率先成為首家��入NVIDIA Grace Hopper Superchip與Ultra Cluster可擴展雲端超級電腦的雲服務商,為機器學習與當前火熱的生成式AI提供自硬體、軟體到軟體的全方位解決方案。

AWS宣布將是第一家提供NVIDIA Grace Hopper Superchip的雲端服務商,以達32個節點構成單一個NVIDIA GH200 NVL32執行個體,將高達32個Grace Hopper Superchip成為一個具備20TB共享記憶體的執行個體,同時也是AWS首個採用液態冷卻的AI基礎設施。該平台將在與具備400 Gbps的Amazon第三代EFA連接的Amazon Elastic Compute Cloud(Amazon EC2)執行個體上提供,並由高級虛擬化(AWS Nitro System)和超大規模叢集(Amazon EC2UltraClusters)提供支持,使雙方客戶能夠擴展上千的GH200超級晶片。

▲AWS將串接32個Grace Hopper Superchip構成GH200 NVL32,提供高達20TB的共享記憶體

同時NVIDIA與AWS將共同在AWS平台託管NVIDIA的人工智慧訓練即服務( AI Tranning as Service)NVIDIA DGX Cloud;此平台將是全球第一個利用NVIDIA GH200 NVL32的DGX Cloud,為開發人員提供單一執行個體最大的共享記憶體,以強大的運算力與充裕的記憶體,藉此執行超過一兆個參數的大型語言模型訓練。

雙方同時啟動Project Celiba,Project Celiba的目的是打造以GPU驅動的世界上最快的AI超級電腦,該計畫採用GH200 NVL32與Amazon EFA互連的大規模系統,並由AWS為NVIDIA研發團隊託管;預計Project Celiba將配有高達16,384個NVIDIA GH200 Superchip,具備達65exaflops,NVIDIA預期將透過Project Celiba驅動下一波生成式AI,包括將使用此超級電腦進行研發,以推進大型語言模型、圖形和模擬、數位生物學、機器人
、自動駕駛汽車和Earth-2氣候預測等���域的人工智慧。Project Celiba將與AWS服務整合,例如Amazon Virtual PrivateCloud(VPC)加密網路和Amazon Elastic Block Store高效能區塊儲存,從而使NVIDIA能夠存取AWS的全面功能。

▲P5e執行個體採用NVIDIA H200,為AWS針對大規模與高階生成式AI、高效能運算工作負載的全新EC2執行個體

AWS也將推出另外三個全新Amazon EC2執行個體,包括針對大規模與高階生成式AI、高效能運算工作負載、以NVIDIA H200 Tensor Core GPU驅動的P5e執行個體,以及適用於人工智慧微調、推論、圖形、影片與工作負載等由NVIDIA L4 GPU驅動的G6,與NVIDIA L40S GPU驅動的G6e執行個體,其中G6e特別適合結合NVIDIA Omniverse開發3D工作流程、數位孿生與其他應用程式。

AWS也將擴展NVIDIA的生成式AI軟體,NVIDIA宣布在AWS推出多項軟體功能,包括做為加速語意檢索建構高準度聊天機器人與摘要工具的NVIDIA NeMo Retriever微服務提供了新工具。此外針對藥物開發,。NVIDIA BioNeMo現在已經於Amazon SageMaker上架;同時AWS也著手活用NVIDIA NeMo框架訓練下一代Amazon Titan大型語言模型;另外Amazon Robotics的機器人計畫也開始活用NVIDIA Omniverse Isaac建構數位孿生,透過在數位孿生環境先行進行自動化、最佳化與規劃自主倉庫,加速新一代自動化機器人於現實部署與提高運作的正確性。