クラウド障害とは?事前に行うべき対策を解説

システム監視・運用

目次

閉じる

01.クラウド障害とは?

近年、企業のITインフラにおいてクラウドの利用はもはや一般的な選択肢となっています。
自社でサーバーを保有せずに、クラウドサービスを通じて必要なときに必要なリソースを利用できるおかげで、コスト最適化やシステム運用の柔軟化といった数多くのメリットを享受できるためです。

こうしたクラウドサービスは、インターネットを介して外部のデータセンターにアクセスし、そこに構築された仮想化技術やコンテナ技術などを利用しています。したがって、自社のオンプレミス環境とは異なるリスク要因が存在し、サービス提供事業者側の事情により障害が発生するケースもあります。

「クラウド障害」とは、クラウドサービスの利用中に発生する各種トラブル(サービスの停止、ネットワーク遅延、データへのアクセス不能など)を総称したものです。これらのトラブルにより、クラウドを基盤とする自社のサービスやアプリケーションが一時的に停止をしたり、利用者側に影響を及ぼす場合もあります。

本コラムでは、クラウド障害とは何かを改めて整理するとともに、事前に行うべき対策や、実際に障害が起こった際の対応方法などを解説します。

クラウド障害とは?

02.クラウド障害の主な原因

クラウド障害は複数の要因が絡み合って発生します。以下に主な原因を示します。

サーバー・ハードウェア障害

仮想化・コンテナ基盤の下には物理サーバーやネットワーク機器が存在し、これらに不具合が起こると仮想層全体に影響します。大手クラウドベンダーは冗長化対策を講じていますが、稀にハードウェア障害でサービスダウンとなることもあります。

ネットワーク障害・通信経路の問題

クラウドサービスはインターネット経由で提供されるため、ルーターやスイッチの故障、海底ケーブルの切断、経路設定ミスなどにより、海外リージョンと日本国内の通信が途絶する場合があります。また、DNS設定の不備も接続障害を引き起こします。

サイバー攻撃

ランサムウェアやDDoS攻撃が増加しており、万全なセキュリティ対策があっても、ゼロデイ攻撃などでサービス停止に追い込まれることがあります。大規模なDDoS攻撃では、クラウド事業者のみならず、利用企業のサイト全体が閲覧不能になる恐れもあります。

人的要因(ヒューマンエラー)

高度なIT技術があっても人間のミスは完全には避けられません。誤ったコマンドの実行やセキュリティポリシーの変更ミスが、わずかな設定不備でも大きな障害につながることがあります。こうしたエラーを防ぐためには、運用ルールの徹底と監視体制の整備が不可欠です。

自然災害や停電

地震や台風などの自然災害により、データセンターの外部電源やバックアップ電源が断たれるとサービス停止に至る場合があります。大手クラウドベンダーは各地域に複数のデータセンターを設け冗長化していますが、それでも完全な防止は難しいです。

クラウド障害の主な原因

03.クラウド障害の実例

ここでは実際に発生したことが報じられたクラウド障害の例をいくつかご紹介します。

実例①

ある大手クラウドサービスプロバイダーの特定リージョンで大規模障害が発生し、インターネット経由で提供されるさまざまなサービスに影響が及びました。原因としては、ネットワーク容量を自動調整する機能の障害と、内部DNSエラーが重なった結果、複数の機能が制限状態もしくは完全に停止状態に陥りました。

この障害により、企業のWebサイトやオンライン決済、ストリーミングサービスなどが停止・遅延し、日本国内でも影響を受けたユーザーが続出しました。

実例②

荒天と落雷が原因となり、大手クラウド事業者のデータセンターが深刻な障害に見舞われました。落雷による電力供給の異常発生後、非常用発電機への切り替え時に冷却システムも停止しました。その結果、ハードウェアなどの温度上昇を防ぐための自動シャットダウンが作動し、サーバーやストレージの停止に繋がりました。

また、影響はデータセンター内部にとどまらず、負荷分散機能や管理用ページにまで波及しました。

ハードウェアの交換や破損データの移行・検証が必要となり、障害発生から24時間以上にわたって主要サービスが利用不能となったと報じられています。

クラウド障害の実例

04.クラウド障害の事前対策

クラウド障害を完全に防ぐことは困難ですが、事前の対策により万一の際の被害拡大を防ぎ、迅速な復旧が可能となります。特に、以下の観点で準備することが重要です。

マルチリージョン・マルチクラウド構成

重要度や予算に合わせ、異なる地域やプロバイダーの冗長化を活用します。一方のクラウドがダウンしても、他方へ切り替えることで継続運用が可能です。ただし、切り替え時間やコスト、クラウド固有機能への依存度を考慮し、運用プランの策定が必要です。

バックアップと災害復旧計画

大量のデータを扱う場合、定期的なバックアップと災害復旧計画(ディザスタリカバリ)を策定することが不可欠です。オンプレミスや他リージョンへのバックアップ、スナップショット、レプリケーションなど、クラウドベンダー提供のツールを活用し、障害発生時の迅速な復旧を目指します。

SLAの理解

クラウドサービスは、SLA(サービスレベルアグリーメント)に沿って一定の稼働率や障害対応が保証されますが、障害を完全に防ぐものではありません。可用性の目標や責任範囲、返金条件など、契約内容を十分に確認することが重要です。

常時システム監視

クラウド障害の早期発見と迅速な対処には、24時間体制のシステム監視が必須です。クラウド事業者のモニタリング機能と自社ツールを組み合わせ、CPU・メモリ・ネットワークトラフィックなどをリアルタイムで監視し、異常検知時は速やかにアラートを発信する仕組みを整えましょう。

セキュリティ対策の徹底

クラウド障害がサイバー攻撃やランサムウェアによる場合、日頃のセキュリティ対策が被害の最小化に繋がります。
ファイアウォールやWAFの導入、脆弱性スキャンやパッチ適用、管理者権限の最小化、ログ監視による不正アクセス検知など、基本セキュリティ対策の見直しを継続するとともに、DDoS攻撃に対してはトラフィック分散などの活用も効果的です。

クラウド障害の事前対策

05.クラウド障害発生時の対応

万が一クラウド障害が発生したとき、迅速かつ適切に対応するためには、事前にインシデント発生時のフローを定めておく必要があります。

障害の発見・切り分け

システム監視によるアラートや、ユーザーからの問い合わせを契機に障害を認知したら、まずは障害の範囲と原因を迅速に切り分けましょう。
クラウド事業者側のサービスステータスページを参照し、全体的な障害か自社設定ミスかを早期に判断しましょう。

クラウド事業者への連絡

事業者のサポート窓口やステータスページで障害状況と見通しを確認します。
大規模な障害の場合、公式アナウンスを待つ必要もありますが、原因が自社構成・設定にあると判明した場合は、社内で迅速に修正作業を実施します。

復旧措置と情報共有

障害原因に応じて、冗長化していたクラウド環境への切り替え、バックアップからのリストア、または構成のロールバックなどで復旧します。
この際、社内外の関係者や顧客に対して、復旧予定や原因を明確に伝え信頼を維持しましょう。

再発防止策の検討

クラウド事業者起因の障害は自社で再発を防ぐのは難しいですが、運用ミスや構成上の問題が原因の場合、原因を徹底検証の上で再発防止策を策定・実施し、将来的なリスクの低減に努めます。

クラウド障害発生時の対応

06.クラウド障害対策に有効なシステム監視ソリューション

クラウド障害をいち早く検知・対処するため、システム監視ソリューションの導入がますます注目されています。まずは、一般的なクラウド監視ソリューションの役割と導入目的について説明します。

クラウド監視ソリューションの導入目的

(1) 24時間365日の早期検知
多くの企業では、システムトラブルが夜間や休日にも発生し得るため、常時専任の運用担当者がモニタリングを行うのは難しいです。そこで、監視ソリューションを導入し、自動で異常を検知して担当者へ速やかに通知する仕組みが求められます。

(2) 障害原因の可視化と解析
「クラウド障害が発生しているのか」、「アプリケーション内の不具合なのか」、「ネットワーク上の問題か」といった状態をダッシュボードで把握することで、障害原因を迅速に特定することができます。
監視ソリューションは、このような各種データを多層的に収集し、可視化することで原因特定を支援します。

(3) 運用工数の削減
手作業でシステム監視を行う場合、ログの追跡や問い合わせ対応に多くの工数が必要となります。自動化された仕組みやツールを活用することで、人的リソースをコア業務に集中させるとともに、障害発生時にも迅速な対応が可能となります。

TOPPANエッジITソリューションの「リモート監視・運用サービス」

当社では、お客さまのクラウドシステムを支える「リモート監視・運用サービス」をご提供しています。

セキュリティ拠点「ITサポートセンター」から24時間365日体制での監視・運用を行い、障害が起きた際の迅速な復旧対応を実現。発生しうるトラブルの早期発見・解決をサポートします。

クラウド障害対策に有効なシステム監視ソリューション

07.まとめ

クラウドは、コスト削減や柔軟性の向上といったメリットを企業にもたらす一方で、オンプレミスとは異なるリスクも伴います。通信経路、ハードウェア、ソフトウェアの問題、さらにはサイバー攻撃や人的ミス、自然災害など、さまざまな要因でクラウド障害が発生する可能性があるため、万全の対策が求められます。

クラウド利用が今後ますます拡大する中で、障害リスクへの備えと安定した運用体制の確立は、企業の競争力維持とビジネス継続に不可欠と言えます。

執筆者

TOPPANエッジITソリューション(株) コラム編集室

システム監視・運用、インフラ構築をはじめとした、IT専門企業のTOPPANエッジITソリューションでは、主にシステム運用、基盤構築に関するコラムを発信し、企業にお役立ていただきます。システムのクラウド化、運用のアウトソーシングなどの、ビジネスシーンで活用していいただければ幸いです。