亞馬遜AWS率先導入NVIDIA Grace Hopper Superchip與Ultra Cluster可擴展雲端超級電腦，為生成式AI提供強大的雲運算基礎架構、軟體與服務 #amazon (204410)

照片中提到了片、4 PetaFLOPS TE I、HE，包含了Grace hopper 架構晶片 gh200、GH200 葛蕾絲霍珀、英偉達、英偉達DGX、英偉達

Amazon Web Service/AWS於自家年度活動AWS re:Invent大會宣布攜手NVIDIA導入多項NVIDIA的創新硬體、技術與服務，率先成為首家��入NVIDIA Grace Hopper Superchip與Ultra Cluster可擴展雲端超級電腦的雲服務商，為機器學習與當前火熱的生成式AI提供自硬體、軟體到軟體的全方位解決方案。

AWS宣布將是第一家提供NVIDIA Grace Hopper Superchip的雲端服務商，以達32個節點構成單一個NVIDIA GH200 NVL32執行個體，將高達32個Grace Hopper Superchip成為一個具備20TB共享記憶體的執行個體，同時也是AWS首個採用液態冷卻的AI基礎設施。該平台將在與具備400 Gbps的Amazon第三代EFA連接的Amazon Elastic Compute Cloud（Amazon EC2）執行個體上提供，並由高級虛擬化（AWS Nitro System）和超大規模叢集（Amazon EC2UltraClusters）提供支持，使雙方客戶能夠擴展上千的GH200超級晶片。

▲AWS將串接32個Grace Hopper Superchip構成GH200 NVL32，提供高達20TB的共享記憶體

同時NVIDIA與AWS將共同在AWS平台託管NVIDIA的人工智慧訓練即服務( AI Tranning as Service)NVIDIA DGX Cloud；此平台將是全球第一個利用NVIDIA GH200 NVL32的DGX Cloud，為開發人員提供單一執行個體最大的共享記憶體，以強大的運算力與充裕的記憶體，藉此執行超過一兆個參數的大型語言模型訓練。

雙方同時啟動Project Celiba，Project Celiba的目的是打造以GPU驅動的世界上最快的AI超級電腦，該計畫採用GH200 NVL32與Amazon EFA互連的大規模系統，並由AWS為NVIDIA研發團隊託管；預計Project Celiba將配有高達16,384個NVIDIA GH200 Superchip，具備達65exaflops，NVIDIA預期將透過Project Celiba驅動下一波生成式AI，包括將使用此超級電腦進行研發，以推進大型語言模型、圖形和模擬、數位生物學、機器人
、自動駕駛汽車和Earth-2氣候預測等��域的人工智慧。Project Celiba將與AWS服務整合，例如Amazon Virtual PrivateCloud（VPC）加密網路和Amazon Elastic Block Store高效能區塊儲存，從而使NVIDIA能夠存取AWS的全面功能。

▲P5e執行個體採用NVIDIA H200，為AWS針對大規模與高階生成式AI、高效能運算工作負載的全新EC2執行個體

AWS也將推出另外三個全新Amazon EC2執行個體，包括針對大規模與高階生成式AI、高效能運算工作負載、以NVIDIA H200 Tensor Core GPU驅動的P5e執行個體，以及適用於人工智慧微調、推論、圖形、影片與工作負載等由NVIDIA L4 GPU驅動的G6，與NVIDIA L40S GPU驅動的G6e執行個體，其中G6e特別適合結合NVIDIA Omniverse開發3D工作流程、數位孿生與其他應用程式。

AWS也將擴展NVIDIA的生成式AI軟體，NVIDIA宣布在AWS推出多項軟體功能，包括做為加速語意檢索建構高準度聊天機器人與摘要工具的NVIDIA NeMo Retriever微服務提供了新工具。此外針對藥物開發，。NVIDIA BioNeMo現在已經於Amazon SageMaker上架；同時AWS也著手活用NVIDIA NeMo框架訓練下一代Amazon Titan大型語言模型；另外Amazon Robotics的機器人計畫也開始活用NVIDIA Omniverse Isaac建構數位孿生，透過在數位孿生環境先行進行自動化、最佳化與規劃自主倉庫，加速新一代自動化機器人於現實部署與提高運作的正確性。

Chevelle.fu

猜你喜歡

Chevelle.fu

相關消息