AIレジリエンスの確立:ZPEのOut-of-Band管理プラットフォームで実現するミッションクリティカルなAIサービス
AIインフラの価値を最大化する
グローバルなAIサービスリーダーであるGruve社が、どのようにして24時間365日稼働し続けるレジリエント(回復力のある)なマルチテナント型AIインフラを構築したかをご紹介します。
Gruve社は、ZPE Systemsの「Nodegridプラットフォーム」を活用することで、完全な可視性の確保、迅速な障害対応、そしてコンプライアンスの簡素化を実現しました。ミッションクリティカルなワークロードの管理コストと労力を大幅に削減した、彼らの革新的なアプローチの裏側に迫ります。
ネットワーク管理とプロビジョニングの新たな基準 NetDevOpsプラットフォームの紹介はこちらお問い合わせはこちら
背景:成果重視のAIソリューションプロバイダー「Gruve」
多くのサービス企業が「技術」を最優先にするのに対し、Gruve社は顧客と密接に連携し、ビジネス、財務、技術的な目標を特定した上で、コスト削減や市場価値の向上、運用効率の改善といった「具体的な成果」を提供するソリューションをカスタマイズしています。
ソリューション開発を加速させるため、Gruve社はGPUクラスター、高速クラスターネットワーク、複数のフラッシュストレージプラットフォームなど、最先端のインフラに多額の投資を行っています。
また、AIプラットフォームに加え、同社のオペレーションセンターが依存するミッションクリティカルなデータセンターサービスを自社で運用しています。本番環境の顧客に対しては厳格なSLA(サービスレベル契約)が結ばれており、わずか数分のダウンタイムであってもビジネスに甚大な影響を及ぼす可能性があります。
これらの要求を満たすため、Gruve社の運用・ITチームは、最小限の人的介入で迅速な変更作業を行い、AIワークロードや重要サービスの継続的な可用性を確保できる、迅速かつ信頼性の高いOut-of-Band(帯域外)管理を必要としていました。
直面していた課題
グローバル規模でマルチテナント型のAIクラスターを設計・運用することには、特有の難しさがあります。Gruve社は、高価なGPU投資を保護し、顧客へのサービス継続性を担保しつつ、複数業界にわたるコンプライアンスを簡素化し、運用コストを抑制できるプラットフォームを求めていました。
初期の設計段階で、以下の主要な課題が明らかになりました。
1. 投資の保護(GPUの熱・電力管理)
高性能GPUは極めて高価な資産です。過熱やサーマルスロットリングは、GPUの寿命を最大30%縮めるだけでなく、予期せぬシャットダウンを引き起こす原因となります。一般的なソリューションでは電力データの取得に時間がかかることがありますが、Gruve社は温度上昇をリアルタイムで検知し、サービスへの影響が出る前に通知できるプロアクティブな環境監視を必要としていました。
2. リモート接続性の確保
800Gのネットワーク環境では、ポートフラッピングやリンク障害がAIの学習や推論ワークロードを妨げるリスクがあります。Out-of-Band(OOB)リモートアクセスはこの対策になりますが、従来のソリューションでは遅延やネットワーク混雑の影響を受けやすく、エンジニアが現地対応(オンサイト)せざるを得ないケースがありました。Gruve社は、トレーニングの中断を防ぐため、リモートから問題を隔離・診断・修正できる完全なOOBアクセスを求めていました。
3. サービスの分離とマルチテナンシー
複数の顧客ワークロードをサポートするには、インフラを強力に分離するテナント制御が不可欠です。しかし、一般的なソリューションでこれを実現しようとすると物理的な分離が必要となり、コストとハードウェアリソースの増加を招きます。Gruve社は、各サービスオーナーがデータとメンテナンスのガバナンスを維持できるよう、ネットワークアクセスやLOM(Lights-Out Management)接続を含む、完全なインフラ分離と可視性を必要としていました。
4. 管理の断片化(サイロ化)
AIクラスターはコロケーションデータセンターに設置され、リモート管理が必要です。従来のソリューションでは複数の管理ポータルを使い分ける必要があり、運用の一貫性が損なわれ、問題解決が遅れる要因となっていました。Gruve社は、シングルサインオン(SSO)でアクセスでき、全拠点のコンピュート、ストレージ、ネットワークリソースを包括的に管理できる、セキュアな単一ポータル(Single Pane of Glass)を必要としていました。
解決策:ZPE Systems Nodegridの導入
Gruve社は複数のOOB管理プラットフォームを評価し、パフォーマンス、スケーラビリティ、クラウド管理、ログ機能、セキュリティの観点から検討を行いました。その結果、運用、コンプライアンス、スケーラビリティの全要件を満たしつつ、日常の管理業務を効率化できる唯一のソリューションとして、ZPE Systemsの「Nodegrid」を選定しました。
特に決め手となったのは、ZPEのクラウド管理機能です。「ZPE Cloud」を利用することで、運用チームは単一のポータルからすべてのAIクラスターをセキュアに管理できるようになりました。クラウドおよびデバイスレベルでのSSOによってセキュリティ基準を強化し、集中管理を実現したことで、複数の管理システムやサイトごとの独自ポリシーが不要となり、対応時間の短縮に成功しました。
Gruve社が導入したソリューション構成:
- Nodegrid Net Services Router (NSR):
サーバー、ストレージ、ネットワーク機器の管理ポートへの完全なOOBアクセスを提供。本番ネットワーク(In-Band)に依存せず、リモートでのトラブルシューティングを可能にしました。 - Nodegrid Gate SR (GSR) アプライアンス:
セルラー回線によるフェイルオーバー接続を提供。プライマリ回線がダウンした場合でも、確実なアクセス手段を保証しました。 - 環境監視センサー:
温度と電力消費をリアルタイムで監視。GPUの過熱や電力関連の障害を防ぎ、高価なハードウェア資産の長寿命化を実現しました。 - 統合接続モジュール:
NSRのシリアルおよびイーサネット管理接続を拡張。追加デバイスの購入を不要にし、ハードウェアの乱立(スプロール)を抑え、ラックスペースの設計を簡素化しました。
このアーキテクチャにより、Gruve社の運用チームはインフラの展開を迅速化し、ISO 27001およびSOC 2コンプライアンスに必要な詳細な監査ログを維持することが可能になりました。すべてのデバイスをNSRにマッピングし、接続テストを行い、標準作業手順書(SOP)の遵守を自動化することで、AIサービスポートフォリオ全体で一貫した運用と強力なレジリエンスを実現しています。
導入効果とメリット
ZPE SystemsのNodegridプラットフォームを導入したことで、Gruve社は運用コストを削減しながら、ミッションクリティカルなAIインフラの応答性、コンプライアンス、システムレジリエンスを向上させました。
- SLA対応の迅速化:
エンジニアはZPE Cloud経由で安全にログインし、現地に行くことなく数分で接続やハードウェアの問題を診断・解決可能になりました。これによりMTTR(平均復旧時間)が大幅に短縮され、SLA違反を回避しています。 - コンプライアンスと保守の簡素化:
論理的および物理的なテナント分離と、集中ポリシーの適用により、メンテナンス時のサービス中断を最小限に抑えつつ、ISO 27001およびSOC 2の要件を満たすことができました。 - リソース配分の最適化:
リモートでのアップグレード、再構成、トラブルシューティングが可能になったことで、ITスタッフはルーチンな保守作業から解放され、収益を生み出すAIイニシアチブへ注力できるようになりました。 - インフラ保護の強化:
温度、電力、デバイスの状態をリアルタイムで監視することで、高価なGPU資産を性能低下や早期故障から確実に保護しています。
お客様の声
「私たちは、AIクラスターへの投資価値を最大化するためにZPE SystemsのNodegridを活用しています。Nodegridプラットフォームは、顧客やパートナー向けに新しいAIソリューションを構築する際、完全な可視性と適応性を提供してくれます。」
— Matt Robinson氏、Gruve社 CTO
ZPE SystemsのNodegridプラットフォームは、Gruve社のサービス提供モデルの基盤であり、統合管理、プロアクティブなインフラ保護、そしてグローバル展開に対応する柔軟なスケーラビリティを実現しています。
複雑なインフラ管理の時間とコストを削減することで、NodegridはGruve社のエンジニアやアーキテクトが「最も重要なこと」――つまり、顧客に測定可能なビジネス成果をもたらす革新的なAIソリューションの提供――に集中できる環境を作っています。
貴社の組織でも同様の運用アジリティとレジリエンスを実現しませんか?
AIおよびミッションクリティカルなワークロードに向けたNodegridの全機能について、ぜひお問い合わせください。
※本テクニカルブログはZPESystems社発行のケーススタディ「AI Resilience: Delivering Mission-Critical AI Services with ZPE’s Out-of-Band Management Platform」の日本語翻訳です。
※本記事の無断転載を禁じます。