

Facebookは、月曜日にFacebook、Messenger、Instagram、WhatsAppが6時間にわたってダウンした原因について、引き続き詳細を発表しています。Facebookは新しいブログ投稿で、ダウンの原因となった技術的な詳細を詳しく説明し、数多くの「定期メンテナンス作業」の1つにおけるミスが原因で発生したと述べています。
フェイスブックは月曜日夜遅くに障害に関する最初の概要を発表し、データセンターの通信に「連鎖的な影響」を及ぼした単一のミスが原因で「サービスが停止した」と述べた。
Facebookは、ネットワーク全体を停止させる可能性のあるコマンドを監査するシステムは導入しているものの、「監査ツールのバグにより、このコマンドが適切に停止されなかった」と述べている。
これらすべてのコンピューティング施設間のデータトラフィックはルーターによって管理されており、ルーターはすべての送受信データの送信先を決定します。そして、このインフラストラクチャを保守するという膨大な日々の業務の中で、エンジニアは光ファイバー回線の修理、容量の拡張、ルーター自体のソフトウェア更新など、メンテナンスのためにバックボーンの一部をオフラインにする必要に迫られることがよくあります。
これが昨日の障害の原因です。定期メンテナンス作業中に、グローバルバックボーンの可用性を評価するためのコマンドが発行されましたが、意図せずバックボーンネットワークのすべての接続が切断され、Facebookデータセンターが世界中で切断されました。このようなミスを防ぐため、当社のシステムはこのようなコマンドを監査するように設計されていますが、監査ツールのバグによりコマンドが適切に停止されませんでした。
この変更により、データセンターとインターネット間のサーバー接続が完全に切断されました。そして、この接続の完全な喪失により、事態をさらに悪化させる第二の問題が発生しました。
当社の小規模施設で行われる業務の一つは、DNSクエリへの応答です。DNSはインターネットのアドレス帳のようなもので、ブラウザに入力する単純なウェブ名を特定のサーバーIPアドレスに変換します。これらの変換クエリは、よく知られたIPアドレスを持つ権威ネームサーバーによって応答され、そのIPアドレスはボーダーゲートウェイプロトコル(BGP)と呼ばれる別のプロトコルを介してインターネット全体に通知されます。
信頼性の高い運用を確保するため、DNSサーバーはデータセンターと通信できない場合、ネットワーク接続に異常があると判断し、BGPアドバタイズメントを無効化します。今回の障害では、バックボーン全体が運用を停止したため、これらの拠点は自らが不健全であると宣言し、BGPアドバタイズメントを撤回しました。その結果、DNSサーバーは稼働していたにもかかわらず、アクセス不能状態となりました。これにより、インターネット上の他のユーザーがDNSサーバーを見つけることができなくなりました。
Facebookのすべてのプラットフォームがダウンすると、社内ツールも障害の影響を受けたため、障害のトラブルシューティング能力にも影響が出ました。そのため、Facebookはエンジニアをデータセンターに派遣し、ハードウェアへの物理的なアクセスを取得しました。しかし、それでも時間がかかりました。「ハードウェアとルーターは、物理的にアクセスできたとしても変更が困難になるように設計されている」ためです。
この特定のケースでは、システムのセキュリティを向上させるために行った取り組みによって障害からの回復能力が遅れたが、これは価値のあるトレードオフであると感じていると述べている。
不正アクセスを防ぐため、システムの強化に多大な努力を払ってきましたが、悪意のある行為ではなく、私たち自身のミスによって引き起こされたシステム障害からの復旧において、その強化がいかに私たちの業務を遅らせたかは興味深いものでした。このようなトレードオフは価値があると考えています。日常的なセキュリティの大幅な強化と、今回のような稀な事象からの復旧の遅延とを比較すると、その価値は十分にあります。
Facebookは、すでに「システムの耐久性を高める方法を理解するための広範な検討プロセス」を開始していると述べている。
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。