液体冷却AIクラスターの管理に対する総合的なアプローチ
AIクラスターのパフォーマンス、エネルギー効率、信頼性を向上させるダイレクト液体冷却管理ソリューション
概要
AIクラスターに高度な液体冷却システムを統合することは、熱安定性を維持し、パフォーマンスを最適化するために不可欠です。AIラック、冷却分配ユニット (CDU)、ユニバーサルマネジメントシステム (UMS)、データセンターマネージャー(DCM) などの主要コンポーネントが連携して、効率的な冷却管理を実現します。ユニバーサルマネジメントシステムは、個々のサーバーと全体的な冷却システムの間の仲介役として機能し、さまざまなレベルで冷却を管理します。一方、データセンターマネージャーは、AIクラスター内のすべてのサーバーとデバイスを監視および管理するための集中プラットフォームを提供します。この統合アプローチにより、パフォーマンスが向上し、エネルギー効率が向上し、信頼性が確保されます。
1. はじめに
データセンター技術の急速な進化の中で、ハードウェアコンポーネントの最適なパフォーマンスと寿命を確保するために、効率的な冷却ソリューションが極めて重要になっています。データセンターは、高性能コンピューティングと人工知能の需要の高まりに対応するために規模を拡大し続けており、従来の空冷方式では不十分であることが判明しています。このホワイトペーパーでは、AIクラスターへの高度な液体冷却システムの統合について検討し、そのようなシステムのアーキテクチャと管理に焦点を当てています。
このホワイトペーパーで説明されている主なコンポーネントには、AIラック、冷却分配ユニット (CDU)、ユニバーサルマネジメントシステム(UMS)、データセンターマネージャー(DCM) などがあります。これらの各コンポーネントは、AIクラスターの熱安定性を維持し、サーバーが最適な温度範囲内で動作することを保証する上で重要な役割を果たします。
冷却分配ユニット (CDU) は、AIクラスター内のさまざまなコンポーネントに冷却液を供給し、各コンポーネントが効率的に機能するために必要な冷却を確実に受けられるようにします。
ユニバーサルマネジメントシステム(UMS)は、さまざまなレベルで冷却状態を管理するコントローラーです。個々のサーバーとクラスター全体の冷却管理システムの間の仲介役として機能します。一方、データセンターマネージャー(DCM)はマネジメントソリューションとして機能し、AIクラスター内のすべてのサーバーとデバイスを監視および管理するための集中型で総合的なプラットフォームを提供します。
このホワイトペーパーでは、これらのコンポーネントの機能について詳しく説明し、それらがどのように連携して統合された効率的な冷却管理システムを構築するかを説明します。これらの高度な冷却ソリューションの機能を活用することで、AIクラスターはより高いパフォーマンス、エネルギー効率の改善、信頼性の強化を実現できます。
2. AIクラスターの構成要素
液冷式 AIクラスターの構成要素については、ダイレクト液冷システムを備えた Wiwynn社 AIクラスターの基本構成を採用して検討しました(ダイレクト液冷システムの詳細については、別の Wiwynn ホワイトペーパー [1] を参照してください)。設計では、図1に示すように、最大容量で最大8つの液冷式 AIラック(各100KW)をサポートする1つのCDU(800KW)を備えています。ただし、1つのCDUでサポートされるAIラックの正確な数は、消費電力 (kW/rack)、ラックあたりの流量と差圧、ラックあたりの水圧、施設の温度、水温などの要因によって異なります。
図1 ダイレクト液体冷却システムを備えたWiwynn AIクラスターの基本構成
2.1 AIラック
図2 ラックマニホールドとドリップトレイ
AIラックはAIクラスターの中核であり、AIトレーニングと推論タスクを処理するGPUサーバーで構成されています。これらのラックは、大量の熱を発生する高性能GPUを収容するように設計されています。GPU間接続はラック内にあり、高速スイッチに接続して、GPU間の効率的なデータ転送を保証します。電源シェルフは必要な電力を供給し、複数のバックアップバッテリユニット (BBU) は、ピーク使用時または停電時に電源バックアップを確保します。図2は、ダイレクト液体冷却に関連するコンポーネントを示しています。各AIラックの背面にはパイプに接続するためのマニホールドがあり、水の流れはCDUによって制御されます。漏れの可能性に対処するためにドリップトレイが付属しており、システムの安全性と安定性を確保します。
2.2 冷却分配ユニット(CDU)
CDUは、液体冷却システムの重要なコンポーネントです。冷却液の分配を制御するバルブと流量計が装備されています。CDU は流量を動的に調整することで、各ラックに適切な量の冷却が行き渡るようにし、エネルギー効率を最適化して、サーバーの最適な動作条件を維持します。
2.3 ユニバーサルマネジメントシステム(Wiwynn UMS100)
Wiwynn UMS は、AIクラスターの冷却システム管理において2つの役割を果たします。ラック内管理では、ラック内 UMSが漏れやサーバーの状態を監視して個々のサーバーを保護します。サーバー内のセンサーから、温度やその他の重要なパラメーターなどのデータを収集します。このデータは、冷却システムをリアルタイムで調整するために使用されます。これにより、各サーバーが最適な温度範囲内で動作することが保証されます。インロー管理では、インローUMSがフローメーターを監視し、CDUのバルブを制御します。サーバーから収集されたデータを分析することで、UMSは、冷却リソースを効果的に割り当てる方法について情報に基づいた決定を下すことができます。冷却管理におけるこのレベルの精度は、データセンターの安定性とパフォーマンスの維持に役立ちます。
2.4 データセンターマネージャー (AMI DCM)
AMIデータセンターマネージャー (DCM) は、 AIクラスターなどの高密度コンピューティング環境のリアルタイム管理を効率化するように設計された強力なオンプレミスソフトウェアソリューションです。DCMは物理マシンまたは仮想マシンにインストールでき、管理者とオペレーターはWebコンソールから直接、またはRESTful API、データストリーミング、またはiFrame統合を介してプログラムでその機能を使用できます(図3を参照)。
図3 AMI DCMをAIクラスターの監視と管理に活用できるさまざまな方法の図解
DCMは、サーバー、スイッチ、電源ユニット、冷却システムなど、さまざまなデバイスからリアルタイム データを収集、集約、分析します。DCMはユニバーサルマネジメントシステムと通信して、図4および5に示すように、AIクラスター内の在庫、エネルギー消費、温度条件、システムの健全性、使用率、および二酸化炭素排出量の完全かつ詳細なビューを管理者に提供します。
図4 AMI DCMのAIクラスター行レイアウト (デバイスの健全性によって色分けされています)
図5 時間の経過に伴う総電力消費量、炭素排出量、温度を示す高レベルラックビュー
DCMのWebコンソールは、高度な監視、モデリング、レポート、アラート、および制御機能を通じて、AIクラスターの管理者とオペレーターが潜在的な問題をプロアクティブに検出して対処できるようにする重要な洞察を提供し、クラスターの環境への影響を最小限に抑えながら継続的なパフォーマンスと可用性を確保します。DCMは、クラスター内のデバイスのファームウェアバージョンを管理し、1回のクリックでコンピューティングノードのファームウェアのバッチアップグレードをサポートします。これにより、すべてのノードで同じファームウェアバージョンが実行され、必要なパフォーマンス、信頼性、およびセキュリティ更新が確実に実行されます。
2.5 ネットワークアーキテクチャ
AIクラスターのネットワークアーキテクチャには、GPU間のeast-westトラフィック転送用、データセンターのさまざまなコンポーネント間のnorth-southトラフィック転送用、および管理用のOOB (Out-of-Band:帯域外) ネットワークの3つのネットワークがあります。east-westネットワークはGPU間のデータ転送を処理し、AIタスクの効率的な通信と処理を保証します。north-southネットワークは、サーバー、ストレージ、ネットワークスイッチなど、データセンターのさまざまなコンポーネント間のデータ転送を管理します。OOBネットワークは管理と監視専用で、イベント データと管理コマンドを転送するための安全で信頼性の高いチャネルを提供します。
サーバーBMC(ベースボード管理コントローラ)、UMS、CDU、DCMは、イベントデータと管理コマンドを交換するために OOBネットワークに接続されています。OOBネットワークでの情報交換によって、AIクラスターの冷却効率が決まります。ラック内のUMSとサーバー/スイッチは、インローUMSとDCMにセンシングデータとステータス更新を提供し、AIクラスターのより高度な管理を可能にします。この統合された冷却管理により、クラスターが最適な温度範囲内で動作し、過熱のリスクが軽減され、全体的なパフォーマンスとエネルギー効率が向上します。
3. 機能と管理
AIクラスターの冷却システムを効率的に管理することは、最適なパフォーマンスとエネルギー効率を確保するために不可欠です。この章では、サーバーレベル、ラックレベル、クラスターレベルなど、さまざまなレベルでの冷却システムの機能と管理について詳しく説明します。
3.1 サーバーレベルのハードウェア管理
ラック内UMSは、サーバーレベルの液体冷却の状態を監視および管理する上で重要な役割を果たします。その主な機能の1つは、サーバーとスイッチ内の漏れイベントを検出して対応することです。UMSは、ハードウェア コンポーネントの状態に関するリアルタイムデータを提供するBMCイベントを受信することでこれを実現します。
BMCベースの漏れ検出をサポートしていないサーバーとスイッチ用に、UMSは、コールドプレートに巻き付けられた GPIOドライコンタクトを備えた漏れ検出バンドを採用した漏れ検出アダプタ (LSA) を設計しました。LSAは、検出バンドからの漏れを検出し、UMSに警告を送信します。LSAの設計には2種類あります。1つはマザーボードに取り付けられた小型モジュールで、もう1つはサーバーに直接インストールするように設計されたPCI-eカードです。
UMSは、サーバー/スイッチで漏電イベントを検出すると、すぐに上位管理システムに通知を送信します。その後、UMSは、潜在的な損傷を防ぐために電源オフプロセスを開始します。UMSは、Redfishコマンドを送信してサーバー/スイッチの正常なシャットダウンを実行し、安全に、かつデータ損失なく電源を切断します。
3.2 ラックレベルのハードウェア管理
ラックレベルでは、ラック内のUMSが、ラック内のマニホールドとドリップトレイの漏れを監視します。これらのコンポーネントはアナログ信号を生成し、UMSはこれをサポートして読み取ることができます。漏れを検出すると、UMSは上位管理システムに通知を送信し、ラック全体の電源オフプロセスを開始します。これは、サーバーレベルの管理プロセスに似ていますが、規模が大きくなっています。
UMSは、ラックの電源をオフにするだけでなく、ラックのバルブもオフにして、ラックへの冷却液の流入を止めます。冷却液のフローを管理し、サーバーの安全なシャットダウンを保証することで、UMSはラックの安定性と信頼性を維持します。図6は、ラック内UMSのサーバーレベルとラックレベルの監視機能を示しています。
図6 ラック内UMS100はサーバーレベルとラックレベルでサーバーを保護します
3.3 クラスターレベルのハードウェア管理
DCMは、コンピューティングノードとそのコンポーネント (CPU、GPU、メモリモジュールなど) を含む AIクラスター全体を管理するための集中プラットフォームとして機能します。また、ネットワークスイッチ、電源シェルフ、UMSシステムも管理し、これらのさまざまなソースからデータを集約して、図7に示すように、クラスターの熱状態、電力消費、全体的な健全性の包括的なリアルタイムビューを提供します。
図7 さまざまなノードおよびコンポーネントレベルのテレメトリを表示するコンピューティングノードの詳細ビュー
DCMを使用すると、管理者はアラートをトリガーする温度しきい値を設定できるため、過熱を防ぐための予防策を講じることができます。さらに、図8に示すように、UMSシステムによって漏れ、リザーバレベルの低下、圧力の不均衡、ポンプの故障などの重大なイベントが検出されると、DCMからアラートが送信されるため、迅速に解決してダウンタイムを最小限に抑えることができます。DCMのリアルタイムのサーバーレベルの温度監視により、管理者はCDUの設定温度を安全に上げることができ、不要な過冷却を回避できます。
CDUの流量または冷却剤温度の調整は、インローUMSによって管理されます。流量を20%遅くすると、CDUの電力消費が50%削減されます。UMS、CDU、DCMの機能を活用することで、AIクラスターは冷却管理において高いレベルの効率性と信頼性を実現できます。この統合アプローチは、サーバーのパフォーマンスを向上させるだけでなく、大幅なエネルギー節約にも貢献し、今日のデータセンターにとって持続可能なソリューションとなります。
図8 CDUのヘルスステータス、障害、センサー値を表示するUMS100ビュー
4. Wiwynn UMS100とAMI DCMの特徴と機能
4.1 Wiwynn UMS100の機能
Wiwynn UMS100 (ユニバーサルマネジメントシステム) は、AIクラスター内のサーバーとラックの冷却と動作状態を管理するために設計された、多用途で堅牢なソリューションです。UMS100は1Uと2Uの両方のフォームファクターで利用でき、さまざまな導入ニーズを満たす柔軟性を提供します。AIクラスターの冷却システムの管理において2つの役割を果たします。ラック内の UMS100は個々のサーバーの漏れと状態を監視し、インローUMS100は流量計を監視して CDUのバルブを制御します。この2つの機能により、各サーバーが最適な温度範囲内で動作し、冷却リソースが効果的に割り当てられます。Wiwynn UMS100の主な機能は次のとおりです。
継続的な運用のための冗長性
UMS100は、2つのDC-SCM (データセンターセキュアコントロールモジュール) コントローラーと BMCベースのシステムで構成されており、エネルギー効率に優れ、従来のIPCシステムに比べて消費電力が大幅に少なくなります。この冗長性は、AIクラスターの安定性と信頼性を維持するために不可欠であり、冷却管理と監視が中断することなく継続されることを保証します。
簡単に統合できる標準ノースバウンドAPI
他の管理システムとの統合を容易にするために、UMS100は標準のノースバウンドAPIとしてRedfishをサポートしています。このAPIにより、UMS100とAMI DCMなどの上位管理システム間のシームレスな通信とデータ交換が可能になります。
さまざまなセンサーデータソースのサポート
UMS100は、さまざまなセンサー データ ソースをサポートするように装備されており、AIクラスターの監視と管理に柔軟性を提供します。この汎用性により、UMS100 はサーバーとラックから包括的なデータを収集し、正確で効果的な冷却管理を可能にします。
さまざまなCDUをサポートするために簡単に拡張可能
UMS100のモジュール設計により、さまざまな冷却分配ユニット (CDU) をサポートするために簡単に拡張できます。この拡張性により、UMS100は、CDUの追加や異なるタイプのCDUの統合など、データ センターの特定の要件に適応できます。
図9 UMS100 1Uシステムの前面図と背面図
図10 UMS100 2Uシステムの前面図と背面図
表1 Wiwynn UMS100の仕様
4.2 AMI DCMの機能
データセンターの規模とコンピューティング密度が拡大するにつれて、管理はますます困難になっています。さらに、持続可能な財務情報開示規則 (SFDR) [2] や EU エネルギー効率指令 (EED) [3] などの新しい規制により、データセンターにエネルギー消費と排出量の監視と報告を義務付け、環境への配慮もますます重要になっています。
AMI DCM は、物理マシンまたは仮想マシンに導入できるソフトウェア ソリューションであり、データ センターの管理性と運用効率を向上させ、環境規制への準拠をサポートすることで、これらの課題に対処します。DCMの主な使用例を図11と図12に示します。
図11 AMI DCMのマネージャビリティユースケース
図12 AMI DCMのサステナビリティユースケース
DCMは、UMSを含むネットワーク、電源、ストレージ、冷却デバイスに加えて、さまざまなアーキテクチャのさまざまなベンダーのサーバーをサポートします。さまざまなセンサーを継続的に監視します。
CPU、GPU、メモリ、その他のデバイスなど、サーバーとコンポーネント全体にわたって詳細な冷却分析を作成できます。これにより、図13に示すように、ホットスポットと潜在的なエネルギー節約を特定するための詳細な冷却分析を作成できます。
図13潜在的なホットスポットを示す部屋レベルの冷却分析
DCMの液冷環境におけるUMSのサポートは、定義済みの温度レベルのしきい値を設定し、重要なパラメーターに警告を発することで、問題が深刻化する前にそれを特定して回避する上で重要な役割を果たします (図7を参照)。これらの機能により、最適なパフォーマンスが保証され、稼働時間が最大化され、運用コストが削減され、ハードウェアの寿命が延びます。DCM のリアルタイムの電力消費データは、電力使用効率などの指標と組み合わせると、電力使用効率(PUE) と炭素強度 (1kWhあたりのCO2排出量) に基づいて、DCMは図14に示すように詳細なエネルギー消費レポートを生成できます。これらのレポートにより、管理者は炭素排出量のしきい値を設定し、持続可能性の目標に向けた進捗状況を追跡し、必要に応じてサーバーレベルの電力制限などの予防措置を講じることができます。また、将来の改善領域を特定し、政府の規制に準拠するためにも役立ちます。
図14 AIクラスターの月間および年間の実際の炭素排出量と予測炭素排出量
DCMは、図15に示すように、過去の使用データに基づいて、サーバーの交換や統合、データセンターのPUE または炭素強度の変化が時間の経過に伴って炭素排出量に与える影響を計算するWhat-if予測も実行できます。
図15 What-If 炭素計算機: PUE と炭素強度の改善によるエネルギー消費量と炭素排出量の予測削減
5. 結論
このホワイトペーパーでは、AIクラスターへのダイレクト液体冷却システムの統合について検討し、そのようなシステムのアーキテクチャと管理に焦点を当てました。主なコンポーネントには、AIラック、冷却分配ユニット (CDU)、ユニバーサルマネジメントシステム(Wiwynn UMS100)、データセンターマネージャー(AMI DCM) などがあります。
Wiwynn UMS100は、サーバーとラックの冷却と動作状態を管理するための包括的なソリューションを提供します。モジュール設計、さまざまなセンサーデータソースのサポート、拡張性によりAIクラスターの安定性とパフォーマンスを維持するために不可欠です。UMS100は、継続的な運用と他の管理システムとの簡単な統合を保証します。
AMI DCMは、AIクラスターを監視および管理するための集中プラットフォームとして機能します。DCMは、クラスターのさまざまなコンポーネントからのリアルタイムデータを統合することにより、クラスターが最適な温度範囲内で動作していることを保証し、パフォーマンスとエネルギー効率を向上させます。
データセンターがハイパフォーマンスコンピューティングとAIの需要を満たすために拡張されるにつれて、効率的で柔軟な冷却ソリューションが重要になります。高度な液体冷却システムは、より高いパフォーマンス、改善されたエネルギー効率、強化された信頼性を提供します。将来的には、冷却技術の継続的な進化により、さらに革新的で持続可能なソリューションへの道が開かれ、データセンターが技術進歩の最前線に留まることができます。これらの適応性の高い冷却戦略を採用することで、データセンターは前例のないレベルの効率とパフォーマンスを実現し、データセンター管理の未来を推進することができます。
参考文献
[1] Wiwynnホワイトペーパー、「ラックレベルのさまざまなダイレクトチップ液体冷却ソリューションの分析」、2023年11月
[2]欧州委員会、「金融サービス分野における持続可能性関連の開示」
参照先ページはこちら
[3]欧州委員会、「Energy Efficiency Directive」。
参照先ページはこちら
[4]AMI「AMI データセンターマネージャー」。
入手先はこちら
著者紹介
Ted Pang Karl Chiang PJ Lin Rami Radi |
CD Song Kemp Ke Muthukkumaran Ramalingam |