Pages

Monday, November 28, 2022

KDDI・NTT西日本・楽天、相次ぐ大規模障害で浮かび上がる3つの共通リスク - ITpro

layaknaik.blogspot.com

全3762文字

 2022年7月以降、KDDIやNTT西日本、楽天モバイルなどで数百万人以上の利用者が長時間にわたって通信を使えなくなる大規模障害が相次いでいる。筆者は総務省の有識者会議に参加し、大規模障害の原因を分析・検証する作業を進めている。その中で、業界全体に横たわる共通の課題が見えてきた。すなわち(1)通信設備が抱える潜在的なリスク洗い出しの不足(2)社内情報共有体制の不備(3)利用者への説明責任の不足――だ。通信障害の影響を最小限に抑え、利用者にとって信頼できるネットワークにしていくために業界全体として何が必要か。

筆者も参加する総務省電気通信事故検証会議が公表した、KDDIとNTT西日本の通信障害についての検証報告書

[画像のクリックで拡大表示]

筆者も参加する総務省電気通信事故検証会議が公表した、KDDIとNTT西日本の通信障害についての検証報告書

(写真:日経クロステック)

浮かび上がる業界共通の構造的な問題

 2022年は大規模な通信障害が頻発した年だった。延べ約3000万人が約61時間にわたって通信を利用しづらくなったKDDIの2022年7月の大規模通信障害のほか、最大211万回線、約5時間にわたってインターネットサービスが利用しづらくなったNTT西日本の2022年8月の通信障害、最大130万回線、2時間以上にわたって携帯電話回線を利用しづらくなった楽天モバイルの2022年9月の通信障害など、立て続けに大規模な通信障害が発生している。

 総務省では、通信障害を分析・検証し、今後の再発防止を図ることを目的として「電気通信事故検証会議」(以下、事故検証会議)を開催している。筆者も2022年8月から構成員として、KDDIやNTT西日本、楽天モバイルで発生した通信障害について分析・検証し、業界全体の再発防止に向けた会議に参加している。

 昨今相次いでいる大規模な通信障害について、事故検証会議では、業界共通の構造的な問題があるのではないかと考えている。筆者は、特に(1)通信設備が抱える潜在的なリスク洗い出しの不足(2)社内情報共有体制の不備(3)利用者への説明責任の不足、の3点があるのではないかと見ている。

 事故検証会議は、通信事業者の機密情報などを取り扱うため、会議や議事録は原則非公開だ。構成員は「本会議で知り得た非公開情報について、厳に秘密を保持するものとし、総務省の書面による承諾なくして、第三者に開示しないこと。また、構成員を辞した後も同様とすること」という厳しいルールが課されている。本記事でも、筆者が事故検証会議に参加する中で知り得た機微な情報を開示することはできない。

 ただし事故検証会議ではKDDIとNTT西日本の通信障害について重大事故と認識し、それぞれ2022年10月と11月に個別の検証報告書を公表している。これら報告書の範囲内であれば公開情報だ。今回はこの報告書の範囲内で、業界共通の課題について指摘してみたい。

通信機器の「ブラックボックス化」、潜在リスク洗い出しに課題

 最初の(1)通信設備が抱える潜在的なリスク洗い出しの不足について、KDDIとNTT西日本の通信障害から共通点を指摘しよう。

 KDDIの2022年7月の通信障害は、全国中継網コアルーターのソフトウエアバージョンアップ作業に伴って、音声通話のための「VoLTE交換機」と加入者データベースが連鎖的にアクセス集中状態に陥ったことで通信障害が長期化した。

KDDIの2022年7月の通信障害では、VoLTE交換機が高負荷状態になりバックアップファイルが壊れたことが長期化の要因の1つとなった

[画像のクリックで拡大表示]

KDDIの2022年7月の通信障害では、VoLTE交換機が高負荷状態になりバックアップファイルが壊れたことが長期化の要因の1つとなった

(出所:総務省 電気通信事故検証 報告書 令和4年7月2日発生した KDDI 株式会社及び沖縄セルラー電話株式会社 による重大事故)

 障害が約61時間にわたって長期化した主な要因は、VoLTE交換機が高負荷になったことでバックアップファイルが壊れ、データに不整合があるバックアップファイルに基づいてVoLTE交換機が再起動したからである。KDDIは事前に、VoLTE交換機が抱えるこうした潜在的なリスクについて十分認識していなかった可能性がある。

 NTT西日本の2022年8月の通信障害も、推奨される台数を超えて光伝送装置を保守網へと収容されたことが原因となった。保守網のルーティングプロトコルについてNTT西日本はOSPF(Open Shortest Path First)を用いていた。OSPFは経路計算による処理負荷が高まりやすいルーティングプロトコルである。推奨値を超えた台数を接続したため、光伝送装置内の制御用CPUが高負荷状態となり、データ通信が不安定となった。NTT西日本は事前に機器ベンダーから、推奨される収容台数の諸元値を共有されておらず、これらのリスクも把握していなかった。

NTT西日本の2022年8月の通信障害は、推奨値を超えて保守網へ光伝送装置を収容したことが原因となった

[画像のクリックで拡大表示]

NTT西日本の2022年8月の通信障害は、推奨値を超えて保守網へ光伝送装置を収容したことが原因となった

(出所:電気通信事故検証 報告書 令和4年8月25日発生した 西日本電信電話株式会社による重大事故)

 通信設備は昨今複雑化しており、通信機器の「ブラックボックス化」が進んでいるという指摘がある。事前にあらゆるリスクを洗い出すことが難しい点も理解できる。

 ただKDDIとNTT西日本の通信障害を見る限り、こうした通信設備に潜むリスクを洗い出さなければ、こうした大規模障害が再び起きかねない。これはKDDIやNTT西日本に限らず、あらゆる通信事業者の設備に関わる業界全体の共通課題だろう。再発防止に向けては、機器ベンダーとの緊密な情報連携や、ベンダーと連携した事前の動作検証の徹底が求められる。

システム全体を見渡せる人材の不足

 (2)の社内情報共有体制の不備についても、業界全体にまたがる課題の可能性がある。

 KDDIの2022年7月の通信障害は、全国中継網コアルーターとVoLTE交換機、そして加入者データベースと、複数のシステムにまたがる複雑なアクセス集中状態が続いた。3つの設備について、それぞれ担当部署も異なる。システム全体として最適となる復旧手段を適切なタイミングで取れなかったことが、障害を大規模化、長期化した可能性もある。

 NTT西日本の2022年8月の通信障害についても、事故検証会議の報告書で「各担当者がそれぞれの担当範囲における復旧措置に集中していた結果、社内関係部署間での迅速な情報共有が十分でなかったと推定され、その結果事故を迅速に復旧させるための情報が社内全体へ十分に行き渡らなかったと推定される」と指摘している。

 昨今の通信システムは大規模化、複雑化している。それぞれ設備の担当範囲で復旧作業を進めたからとはいえ、システム全体としての最適な復旧手段となるとは限らない。個別最適な復旧措置が、連鎖的に他のシステムへと影響を及ぼし、結果的に障害を長期化する可能性もある。

 各部署が連携した社内情報共有体制の整備はもちろん、通信システム全体を見通して最適な復旧手段を決定できる人材についても育成が必要だろう。KDDIとNTT西日本に限らない業界全体の課題だ。

Adblock test (Why?)


からの記事と詳細 ( KDDI・NTT西日本・楽天、相次ぐ大規模障害で浮かび上がる3つの共通リスク - ITpro )
https://ift.tt/4c58ytf

No comments:

Post a Comment