NVIDIA的NVIDIA NeMo框架、GPU成為亞馬遜Amazon Titan Foundation訓練大型語言模型的幕後功臣

2023.11.29 11:22AM
照片中提到了ध、Amazon Titan,跟基督教與傳教士聯盟有關,包含了電腦牆紙、產品、商標、產品設計、牌

雖然許多雲端服務公司皆積極打造為旗下服務與技術最佳化的自研晶片,然而從提供服務與進行人工智慧訓練的領域,仍為自硬體、軟體至服務等完善布局的NVIDIA的天下;Amazon Web Service(AWS)的科學家與開發者為開發生成式AI服務Amazon Bedock的基礎模型Amzon Titan,即攜手NVIDIA,並以NVIDIA的GPU結合AWS的EFA(Elastic Fabric Adaptor)高速互聯架構作為基礎硬體設施,搭配NVIDIA NeMo框架進行開發。

▲NVIDIA NeMo不僅作為建構、客製化與執行大型語言模型框架,又能透過平行技術串接海量GPU進行大規模且高效能的訓練

NVIDIA NeMo是作為建構、客製化與執行大型語言模型的框架,其中又以能夠發揮平行技術進行大規模且高效能的大型語言模型訓練作為關鍵,AWS借助EFA提供Ultra Cluster網路基礎設施,使客戶能取用超過1萬個以上的GPU,同時透過GPUDirect繞過作業系統與CPU,使大量GPU如同單一大型GPU。

借助NVIDIA NeMo,AWS可針對新Titan基礎模型、資料集、基礎設施等特定情況客製化訓練軟體;同時AWS的創新技術包括從Amazon Simple Storage Service(Amazon S3)到GPU叢集的高效能串流。借助NeMo 建立在PyTorch Lightning等標準化的大型語言模型訓練管道組件,借助這些廣泛使用的函示庫的基礎,使整合這些創新技術變得容易。