AI革命が加速する中でエヌビディア(Nvidia)製の最新GPUを確保したがる企業は多い。そこに目を付けたグーグルクラウド(Google Cloud)の顧客向けソリューションが注目を浴びている。
SOPA Images/Alamy
AI(人工知能)活用により市場をアウトパフォームしようとする米ウォール街各社の競争に停滞感が生まれている。
昨冬、クオンツ運用に特化した大手ヘッジファンドのツーシグマ(Two Sigma)でテクノロジーとデータを駆使した運用モデル開発を担当する数理の専門家たちはある問題にぶつかった。
運用モデル開発に必須のAIモデルを使うには、決定的なインフラが不足していたのだ。具体的には、エヌビディア(Nvidia)製のGPU(画像処理装置)に需要が殺到し、調達はほぼ不可能な状況だった。
4月にラスベガスで開催されたグーグルクラウド(Google Cloud)の年次カンファレンス「ネクスト(Next)2024」に登壇したツーシグマのソフトウェアエンジニア、アレックス・ヘイズ氏は現状を次のように説明した。
「クオンツ業界全体が(GPUの)キャパシティ不足に苦しんでいます。どの製品も品薄ではありますが、エヌビディアの『A100』『H100』など最新の製品は特に深刻です」
同社の示したチャートによれば、ツーシグマの「A100」調達成功率は最大時でも20%にとどまる。
同社のリサーチプラットフォーム構築・保全を担当するヘイズ氏は、GPUへのアクセス確保を担う社内の技術チームが置かれた状況にも言及した。
「手頃なコストで、時にはコストゼロで、しかも極めて制約のある環境下で投資家からの要求を満たそうとしているわけですが、何ともならない苦境に追い込まれているのが現状です」
ツーシグマはコンピューターベースの数理モデルに依拠して機械的な投資判断を行っており、とりわけ先端的な数理モデルを開発する際には莫大なコンピューティングパワーが必要になるケースもある。
なお、同社のリサーチ担当チームがコンピューティングパワー不足を経験するのは今回が初めてではない。
2014年には、同社のワークフローに必要とされるコンピューティングパワーが(オンプレミスの)データセンターキャパシティの10倍を超え、最終的にはパブリッククラウドへの移行を余儀なくされた。
そして、そうした需給をめぐる難題に直面したことが、ツーシグマおよびその技術ベンダーによるクリエイティブな取り組みを促す結果となった。
同社にクラウドサービスを提供するグーグルクラウドは新たな技術を開発。それを前出の年次カンファレンスで披露し、満員の観客を魅了した。
ツーシグマはその新技術のアーリーアダプター(のうちの1社)となり、結果として「NVIDIA A100」の調達成功率をおよそ80%まで高めることに成功した。
気になる新技術、その中身
グーグルクラウドのエンジニアでヘッジファンド顧客を担当するダクスター・マテオ氏のもとには、ウォール街のエンジニアたちからこんな要望が相次いでいるそうだ。同氏は前出のカンファレンスでこう語った。
「ダクスター、実は良いアイデアがあって、実現するためには『H100』200台を可能な限り早く、数日間(そのワークロード向けに)使えるようにする必要があるんだけど、200台全部揃うまでは手を付けられないんだよね」
その類いの要望に対して、マテオ氏は基本的に「今すぐに『H100』200台を用意するのはさすがに難しいですよ」と答えてきた。実際には、手に入る時に手に入る分だけ順次確保し、数日なり数週間なりかけて200台を揃えるしかないだろう。
しかしそれだと、段階的に順次調達した分をそのまま寝かせて全数用意できるまで使わないことになり、クラウド支出を最適化する観点から考えて優れた方法とは到底言えない。
そこでグーグルクラウドが考え出したのは、エヌビディアがグーグルなどクラウドプロバイダー経由でAIチップ(のキャパシティ)を提供していることを踏まえ、手元にキャパシティをプールしてそれに対するアクセスを効率的に配分する仕組みだ。
「ダイナミック・ワークロード・スケジューラー(Dynamic Workload Scheduler)」と呼ばれるこのソリューションにより、グーグルクラウドの顧客企業は貴重なGPUリソースを確保する機会を広げることができるとマテオ氏は語る。
グーグルクラウドの顧客企業がこの仕組みを通じてGPUリソースの確保を要求した場合、まずはリージョン(最寄りのデータセンター設置エリア)、GPUマシンの種類と台数、利用時間を指定するよう求められる。
それぞれの顧客企業が必要とするリソースを数字として把握することで、グーグルクラウド側はキャパシティをよりきめ細かくプロビジョニング(=リソースの割り当てと設定)し、キャパシティの利用余地を最大化できる。
また、このスケジューラーではキャパシティを一括提供するため、顧客企業側は段階的に確保したGPUリソースを寝かせておく間の費用を支払う必要もない。
なお、ツーシグマのGPU調達成功率の大幅改善には、グーグルクラウド側のソリューションだけでなく、ツーシグマの内製技術も一役買っているようだ。
同社は2015年に構築した社内リサーチャー用のモデル運用スケジューラー「Cook(クック)」を、グーグルクラウドが開発したダイナミック・ワークロード・スケジューラーと統合した。
各リサーチャーが運用モデル開発に必要なワークロードをクック経由で申請すると、クックがそれらのワークロードをキュー(実行待ちの要求プール)に入れ、ランク付けし、優先順に入れ替え、(グーグルクラウドの一括提供するGPUマシンで)ワークロードを実行することになるという。
数多くの金融関連企業がそれぞれのリサーチプラットフォームをグーグルのクラウド上にホストしており、その流れで、グーグルクラウドは各社の数理モデル開発のサポートも収益源としている。
ツーシグマと同じくクオンツ運用を手がける大手ヘッジファンドのシタデル・セキュリティーズ(Citadel Securities)も、グーグルをクラウドプロバイダーとし、そのクラウド上にプラットフォームをホストする顧客企業の一つだ。