AIデータセンターの次なる時代:なぜデバイスレベルの管理が重要なのか
2025年2月
著者 Rami Radi: Sr. Product Manager and Solution Architect
目次
●はじめに
|
はじめに
AIとハイパフォーマンスコンピューティング(HPC)の急速な拡大は、データセンターの密度と複雑性を大幅に増大させています。 ゴールドマン・サックスの2024年の分析によると、AIワークロードは従来のサーバーの10倍の電力を必要とする可能性があり、電力消費、冷却効率、ハードウェアの信頼性、持続可能性において新たな課題を生み出しています。
従来のデータセンターインフラ管理(DCIM)ソリューションは、主に施設全体の指標に焦点を当てていますが、デバイスごとの詳細な洞察を欠いていることがよくあります。 一方、サーバー管理ソリューションは、主に同じメーカーのサーバーに限定されています。 最後に、エージェントベースのソリューションは、詳細なワークロードとアプリケーションレベルの洞察を提供しますが、導入が困難な場合があり、潜在的な不正確さ、セキュリティリスク、パフォーマンスのオーバーヘッドを引き起こす可能性があります。
したがって、インフラの効率を確保し、運用コストを管理し、ハードウェアの寿命を延ばすためには、非侵入的でIT中心の異種混合アプローチが不可欠です。 これには、マルチベンダー環境全体でのデバイスレベルの電力消費、冷却ダイナミクス、およびコンポーネントの状態に対する可視性が必要です。
AIデータセンターの増大する課題
電力とエネルギー効率
AIインフラは、ラックの電力要件と全体のエネルギー消費を劇的に増加させます。 施設全体のPUE指標に焦点を当てた従来の監視アプローチでは、ラックおよびデバイスレベルでの電力の監視と管理ができません。 この可視性がなければ、データセンターは非効率なエネルギー配分、運用コストの上昇、および容量、パフォーマンス、持続可能性の拡大における課題のリスクを負うことになります。
Uptime Instituteの2024年グローバルデータセンター調査によると、回答者のほぼ半数が主に11年以上経過した施設で働いていました。 これらの環境では、インフラの状態、電力消費、冷却の管理が重要です。
さらに、ローレンス・バークレー国立研究所(LBNL)が作成した2024年米国データセンターエネルギー使用に関する報告書によると、AIワークロードは増加しているものの、従来のサーバーは依然としてデータセンターインフラの大部分を占めていることが図1に示されています。また、同報告書は、AIサーバーが80〜90%の稼働率で動作するのに対し、非AIサーバーはしばしば60%未満で動作することを示しています(図2)。
図1. 2014年から2028年までの総サーバー設置台数(上限出荷台数)(左)、GPU出荷台数の下限で調整された設置台数(右)
これは、十分に活用されていない従来のサーバーを特定し、統合し、最適化することが、電力配分とリソース割り当てを改善するために依然として不可欠であることを意味します。 これはエネルギーの無駄を削減するだけでなく、スペースの使用率と全体的な運用パフォーマンスも向上させます。
図2. 各ワークロードの平均稼働時間(LBNL、2024年)
エネルギーコストが上昇し、環境規制が厳しくなるにつれて、データセンターは持続可能性の向上と、EUエネルギー効率指令(EED)などの進化する法律の遵守にも注力する必要があります。 これには、環境への影響を最小限に抑えながらコンプライアンスを確保するために、詳細なエネルギー監視、最適化されたワークロード配分、およびインテリジェントな電力管理戦略が必要です。
GPUとAIインフラの信頼性
AIは高性能GPUに大きく依存しており、これらは高密度AIクラスターにおける熱ストレス、コンポーネントの老朽化、過度の使用により故障しやすい傾向があります。 高密度にパックされたAIクラスター内の1つの故障したGPUが、重要なワークロードを中断させ、非常にコストのかかる予期せぬダウンタイムにつながる可能性があります。
Metaが2024年に発表した論文「The Llama 3 Herd of Models」によると、Llama 3 405Bの事前学習の54日間で、予期せぬ中断の約78%が確認済みまたは疑わしいハードウェアの問題に起因していました。 GPUが平均してこの同じ割合で故障する場合、その年間故障率は9%になり、3年後には約27%になります。
リアルタイムのGPU電力、熱、状態、および使用率の監視がなければ、故障はパフォーマンスに影響を与えるまで検出されない可能性があります。 プロアクティブなメンテナンスは、異常や故障の兆候が致命的になる前に特定することにより、リスクを軽減するのに役立ちます。
ハードウェアの故障以外にも、デバイスの購入時期がずれると、同一ハードウェア間でファームウェアのバージョンが不一致になることがよくあります。 これは信頼性、パフォーマンス、セキュリティに影響を与える可能性があります。集中化されたファームウェア管理により、GPUクラスター全体で一貫したファームウェアバージョンを強制し、最適なパフォーマンスと信頼性を確保できます。
液体冷却と熱管理
EPRIの2024年5月のホワイトペーパーによると、冷却システムはデータセンターの総エネルギー消費量の30〜40%を占めています。 AIラックが40kWを超えるため、従来の空冷方式ではもはや十分ではありません。 その結果、これらの極端な電力密度を管理するために、直接チップ冷却と液浸冷却が不可欠になっています。 しかし、これらの高度な冷却方法は、特に冷却液の流量、ポンプ効率、圧力レベル、漏れ検知の監視において新たな課題をもたらします。 以下のXFusionのホワイトペーパーからの図3は、主要なコールドプレート液体冷却コンポーネントとその故障モードのいくつかを示しています。
データセンターでの液体漏れは、ハードウェアに深刻なリスクをもたらし、大幅なダウンタイムと経済的損失を引き起こします。 例えば、Global Switchのパリデータセンターで冷却システムのウォーターポンプの故障によりバッテリー室に水が漏れた結果、火災が発生し、ヨーロッパ全体のGoogleサービスが中断しました。
このような状況を防ぐためには、リアルタイムの熱および状態監視と分析、ならびに効果的な冷却分配ユニット(CDU)管理が必要です。
図3. 一般的なコールドプレート液体冷却の主要コンポーネントとその故障モード(XFusion、2022年)
IT中心のデータセンター管理によるギャップの解消
これらの課題に対処するために、データセンターは、複数のデバイスとアーキテクチャをサポートし、ベンダーに依存せず、デバイスおよびコンポーネントレベルの監視とより広範なインフラストラクチャ制御を並行して提供するハイブリッド管理ソリューションを採用する必要があります。 これにより、データセンターはエネルギーコストを抑制しながら効率的に拡張できます。
効果的なソリューションの主な機能は次のとおりです。
- マルチベンダーおよび異種混合ハードウェアのサポート – さまざまなメーカーの多様なデバイスセット全体でシームレスな管理を保証します。
- リアルタイムのデバイスおよびコンポーネントレベルの状態監視 – AIクラスターおよびHPCノード全体でパフォーマンスの安定性を確保します。
- デバイスごとの電力および冷却分析 – 熱効率を最適化し、電力のボトルネックを防ぎます。
- ファームウェア管理 – ハードウェアの回復力とセキュリティコンプライアンスを強化します。
- 持続可能性管理 – 電力消費を環境影響目標(PUE、CUE、炭素報告)に合わせます。
これらの機能は、運用効率の向上、リスクの軽減、および長期的な持続可能性の確保に不可欠です。 AIとHPCが前例のないワークロードを推進するにつれて、インテリジェントでIT中心のデータセンター管理は、進化する状況においてパフォーマンス、信頼性、コスト効率のバランスを取る上で不可欠になります。
参考文献
- ゴールドマン・サックス。(2024年)。世代的成長:AI、データセンター、そして来るべき米国の電力需要急増
- Uptime Institute。(2024年)。グローバルデータセンター調査。
- LBNL。(2024年)。2024年米国データセンターエネルギー使用量報告書
- Meta。(2024年)。Llama 3モデル群。
- EPRI。(2024年)。インテリジェンスの強化:人工知能とデータセンターのエネルギー消費の分析
- XFusion。(2022年)。コールドプレート液冷サーバー信頼性ホワイトペーパー。
AMIについて
AMIは、現代のコンピューティングのために再構築されたファームウェアです。セキュリティ、オーケストレーション、および管理性ソリューションのためのダイナミックファームウェアのグローバルリーダーとして、AMIはオンプレミスからクラウド、エッジに至るまで、世界のコンピューティングプラットフォームを可能にします。 AMIの業界をリードする基盤技術と揺るぎない顧客サポートは、永続的なパートナーシップを生み出し、ハイテク業界で最も著名なブランドのいくつかのイノベーションを促進してきました。 詳細については、www.ami.com(メーカーページ)をご覧ください。
※本記事は、AMI社「The Next Era of AI Data Centers: Why Device-Level Management Matters」の日本語翻訳版です。