Facebookの障害はたった一つのミスが原因、甚大な影響c

Facebookの障害はたった一つのミスが原因、甚大な影響c
Facebookの障害はたった一つのミスが原因、甚大な影響c
Facebookの障害はミスが原因

昨日のFacebookの障害では、メインサービスに加え、Facebook Messenger、Instagram、WhatsAppもダウンしたが、これは同社のネットワークエンジニアのミスが原因であった。

このミスにより、Facebook のすべてのサービスがアクセス不能になった。これは、ネットワーク トラフィックの「航空管制」サービスの障害に似ていると例えられる。

昨日、大規模な失敗について報告しました。

あなただけではありません。Facebook、Instagram、WhatsAppは現在、世界中のユーザーに対してダウンしています。iOSアプリとウェブの両方で、3つのサービスすべてでエラーメッセージが表示されています。「申し訳ありません。問題が発生しました」「5xxサーバーエラー」などのエラーメッセージがユーザーに表示されます。

DowndetectorとTwitterのデータによると、今回の障害はFacebook傘下のすべてのプラットフォームに影響を及ぼしています。これにはInstagram、Facebook、WhatsApp、Facebook Messengerが含まれます[…] Facebook、Instagram、WhatsAppの障害は一部地域のみで発生していますが、本日は世界中でサービスが停止しています。 

徐々に、この問題は DNS (サービスにアクセスするためにどの IP アドレスを使用するかをデバイスに指示するドメイン ネーム サーバー) に関連している可能性があることが明らかになりましたが、正確に何が起こったのか、外部からのハッキングなのか、内部者の悪意のある行為なのか、あるいは壊滅的なミスなのかは不明でした。

Facebook社はブログ投稿でそれが間違いであったことを認めた。

エンジニアリングチームは、データセンター間のネットワークトラフィックを調整するバックボーンルーターの構成変更により、通信が中断される問題が発生したことを確認しました。このネットワークトラフィックの中断は、データセンター間の通信に連鎖的な影響を及ぼし、サービスが停止しました。

アクセスできないシステムには、エンジニアが通常リモートで問題解決に使用するサーバーやツールが含まれていたため、問題解決には長い時間がかかりました。報道によると、下位レベルの従業員はデータセンターに物理的にアクセスし、その後、上級エンジニアから段階的な指示を仰いでミスを修復しなければならなかったとのことです。さらに、ネットワークが利用できない状態だったため、Facebookのドアアクセスシステムもオフラインになり、物理的にアクセスできなくなっていました。

Facebookの障害をどう理解するか

いずれ全容が明らかになるだろうが、ドメインネームサーバー (DNS) とボーダーゲートウェイプロトコル (BGP) の設定の組み合わせに問題があったというのが共通の見解となっている。

ネットワークトラフィックを飛行機に例えるのが一番分かりやすいでしょう。デバイスはfacebook.comへ飛びたいとします。飛行機はまず、目的地の空港のGPS座標、つまり接続すべきIPアドレスを知る必要があります。この情報はDNSに問い合わせることで取得され、DNSはfacebook.comが(例えば)66.220.144.0にあることを伝えます。

しかし、最終目的地、つまりあなたが実行したいタスクを実行できる実際のサーバーに到達するには、ネットワークトラフィックの航空管制システムのようなもの、つまりBGPに依存しています。BGPは、最終目的地までの経路で様々なサーバーを経由してどのルートを飛ぶべきかをデバイスに指示します。

FacebookはBGPシステムを完全に失ってしまったようです。そのため、Facebookはデバイスに目的地への到達方法を指示する手段がありませんでした。また、Facebookのエンジニアがミスを修復するために必要なシステムにアクセスすることも不可能でした。

さらに、情報筋によると、Facebook の DNS 自体に問題はなく、BGP が失われたために同社のドメイン ネーム サーバーにアクセスする方法がなくなったわけではないとのことです。

信頼できる情報源によると、Facebookの復旧作業担当者によると、障害の原因は定期的なBGPアップデートの失敗によるものだとのことです。しかし、アップデートによってリモートユーザーは変更を元に戻すことができず、物理的にアクセスできるユーザーもネットワーク/論理的なアクセス権限を持っていませんでした。そのため、両端とも元に戻すことができませんでした。

— briankrebs(@briankrebs)2021年10月4日

停電は大きな影響を与える

もしこれが、数時間猫動画を投稿できないだけなら話は別ですが(まあ、猫動画のない生活なんて考えられませんよね?)。しかし、WhatsAppは多くの国で事実上重要な通信インフラとなっており、例えば患者と医師の間の連絡に日常的に利用されているほか、決済にも多くの人が利用しています。

長期にわたる停電により、世界全体がこの種の障害に対していかに脆弱であるかに注目が集まっています。

例えば、何百万人もの人々が地球上のあらゆるサーバーにアクセスするためにGoogleのDNSサーバーを利用しています。もしこれらのサーバーが長期間ダウンしたらどうなるでしょうか。それは消費者に影響を与えるだけでなく、商業活動や重要なインフラにも混乱をきたすでしょう。工場の生産、車両輸送、小売…あらゆる業務に支障をきたすでしょう。

世界全体は比較的少数のサーバーに大きく依存しており、今回のようなミスによって全てのサーバーがオフラインになる可能性があります。将来、より深刻なインターネット障害を防ぐ方法について、十分な検討が必要です。

写真: NASA

havebin.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。

dbrand グリップ iPhone 13 ケース