一つのメンテ失敗が国の根幹を揺るがしたKDDI

7月2日未明から始まったKDDI(au)の通信障害は、発生から数日かかってようやく「全面復旧」できた模様です。
コトは、いち携帯電話会社のシステム障害なわけですが、ここで改めてわかったことは、いま日本の携帯電話網は、「電話」にとどまらず国民の生命、財産も支えているということですね。

実際今回の障害では、「電話やメールができない」ということだけでなく、駅で行き先表示ができない、IOT機器の障害で、製造業など産業への支障、宅配便会社でドライバーと通信ができないなど、物流の混乱、さらにはコロナ患者への安否連絡ができず市の職員が戸別訪問で回ったということも報じられました。他にも110番や119番通報もできない、怪我をした漁船乗組員の救助に5時間かかったなど、携帯電話網、通信網の問題は、命にも関わる問題であったことが、あらためて確認されました。

特に当日は、九州、沖縄に台風が接近していたという状況もあり、総務省がすぐにKDDIへの人員派遣を決めましたが、このような対応は、東電の原発事故以来と言われ、それほど国の危機感も強いものだったわけです。

この事態の発端は、東京の多摩地区でのルーター定期交換時に起きた不具合であり、そのため15分間音声通話ができない状態となりました。(15分後には交換前の状態に復旧したといいます。)

とは言うものの、休日の午前1時半過ぎという真夜中に電話をする人は非常に少ないでしょうし、ごく限られた地域のごく限られた一部の機器の不具合の話であって、これだけなら直接迷惑を被った人はそれほど多くなかった「筈」です。

ところが、あっという間に障害が全国に波及、ご存知のように、数日間にわたり、電話もメールもネット接続も全くできない状況が続きました。

なぜこのようなことが起きたのでしょうか?

KDDIの発表では、原因究明と再発防止策を今後策定するとしていますが、今、報道されているだけでも、様々な原因はわかってきています。
ただやはり理解しづらいのが、一部の機器の不具合でなぜ長期間、大規模な障害が起きたのかということでしょう。

一言で言えば、「それがネットワークだから」ということですが、ここではシステム思考を使って、ネットワーク社会ならではのリスクやその対応を考えてみたいと思います。

ところで、何故システム思考で今回のような問題の原因を説明できるのかについて、疑問に思う人もいるかも知れません。

イエール大学の社会学者、チェールズ・ペローの著書「Normal Accidents」によれば、現代の複雑な問題や事故は「複雑性」と「密集合」という2つの要素によって起きるとされています。

複雑性は、システムの多数の要素同士の関係が高度に非線形で解読が難しいものを指し、密集合とは、システムが適切に機能するためには、構成要素がそれぞれ欠陥なく機能する必要があることを意味します。
つまり密集合の状態だと、構成要素がたったひとつ故障するだけで、システム全体がクラッシュし停止します。

ペローによれば、複雑性と密集合で原油流出事故や飛行機の墜落事故、炉心溶融事故、化学工場の爆発事故が起きるのはなぜかを説明できるし、その上、そうした事故はくり返し起きると思ったほうがいいことも説明できるとしています。
(ハードの話だけではなく、「人間関係の問題」などソフトの問題も、解決が困難なのは「複雑性」「密集合」だからと説明できますよね。)

今回のケースは当に「複雑性」「密集合」のケースそのものです。

そしてシステム思考は、そのような複雑なシステムを可視化し、複雑な問題の解決ポイントを示してくれる、おそらく唯一の手法なのです。


 
 

システム障害を因果ループ図で表す

下図がKDDIの会見や報道記事などを基に描いた因果ループ図です。情報をすべて知っているわけではないので、一部筆者の推論もあることもご承知ください。

KDDIネットワーク障害のループ図

 
 

最初の発端は、上述したように、メンテナンス時の不具合による一部の機器のダウンです。
そうすると、データはその機器のルートを迂回して、他のルートを通るようになり、その分他の機器への負荷が高まります。

一方、不具合でうまくつながらなかった間に滞留していたデータも一気に迂回ルートに流れます。そうすると今度は迂回ルートのトラフィック負荷がかかって、接続容量が処理能力を超えると、その機器もダウンしてしまいます。これが輻輳と言われる状況です。
そして機器がダウンすると、未処理のデータは更に増え、それらのデータは他のルートに向かい、また違う回線や機器の負荷を増加させます。
この繰り返しが短時間の間に起こり、全国的な障害へと発展していったのです。

諸刃の剣だった通信制限措置

このような状況を見て、KDDIはネットワークを守るため50%の通信制限措置をとりました。これにより、全体の負荷は確かに減りますが、実はこの措置は「危険と隣り合わせ」「諸刃の剣の措置」と言われています。

例えば首都高速道路などでは、平日の午後など、交通量が増大し渋滞が深刻な状況のとき、出入口の料金所を一部閉鎖して首都高への流入量を下げるという処置をよく行います。
確かにそれによって入ってくる車の量は減るのですが、稼働している料金所(出入口)が減ることにより、他の料金所は余計混雑してしまいます。
つまり通信制限によって接続機器の負荷が余計に増大するということも起こります。

そしてユーザーは繋がりにくくなることにより、何回もリダイヤルしたり、何度もメールを送信し直すようになります。
IOTでつながるデバイスも、繋がりにくくなればなるほど、何度も再接続を試みるでしょう。

例えが適切かわかりませんが、「A銀行にお金が足りなくなった」という噂が立ったら、その銀行窓口に預金者が殺到して預金を次々と引き出そうとするようなものでしょうか。
あるいは、通勤ラッシュ時の電車事故で、入場制限をした駅の駅員さんが、ひっきりなしに説明を求める乗客対応で疲弊しきっている状態をイメージしていただいても良いかもしれません。

(今回のケースでこの疲弊した窓口職員に当たるのが、問題の接続ルーター(voLTE)と顧客データベース間の回線です。顧客が接続を試みる度、本人と通信相手の顧客データベースにアクセスし、顧客ステータス(番号などの基本情報は合っているか、料金はちゃんと払っているか等)を確認し続けなければなりません。)

ネットワーク滞留の怖さ

首都高に向かう自動車や銀行に殺到する人たちの場合、距離、時間などの物理的制約がありますが、デジタルデータは距離も時間も関係なく一瞬でネットワークを駆け巡ります。

そして、ネットワークに少しでも流れが悪くなるところがあると、そこに次々と流れ込んきた情報やものが溜まり続け、予想できないほど負荷が増加してしまう。
これがネットワーク滞留の怖さです。通信データのネットワークだけでなく、例えば生態系のネットワークでも起こっています。

一例を挙げると、今問題となっている海洋へのプラスチック投棄の問題。

これを読んでいる人の中には、捨てられたプラスチックは砂浜を汚したり、一部の生物に被害を及ぼしたりはするけれど、広大な海を思えば、それほど深刻な問題ではないと思っている人もいるかもしれません。

しかし、プラスチックの破片を食べた魚を、他の魚が食べるということを繰り返していくうち、鮪のような大型な魚は寿命が長い、つまり生態系を食物連鎖のネットワークと考えると滞留時間が長い箇所にあたるわけですから、その体内からは想像以上のプラスチック破片、あるいはダイオキシンなどの有害成分が検出されるようになってきています。

KDDIの問題は、単なる一企業の問題、一業界の問題ではなく、ネットワーク社会に生きる私たちに警鐘を鳴らしているように感じます。

これを可視化するシステム思考、私たちはそれを身に着けているいないで、生命や財産も左右される。そういう時代に私たちは生きていると言えるのかもしれません。

   


日本能率協会主催「DX時代に求められる「3つの思考法」入門セミナー」開催