Amazonは、iCloudなどのインターネットサービスに影響を及ぼした障害は人為的ミスによるものだと発表c

Amazonは、iCloudなどのインターネットサービスに影響を及ぼした障害は人為的ミスによるものだと発表c
Amazonは、iCloudなどのインターネットサービスに影響を及ぼした障害は人為的ミスによるものだと発表c

今週初め、Amazon Web Services(Amazon Web Services)で大規模な障害が発生し、複数のオンラインサービスが停止し、AppleのiCloudプラットフォームにも影響が出ました。当時、長時間にわたる障害の原因はほとんど明らかにされていませんでしたが、Amazonは新たなブログ記事を公開し、何が問題だったのかを詳細に説明し、人為的ミスが原因であると断定しました。

AmazonはAmazon Web Servicesブログに投稿したメモの中で、Amazon Simple Storage Service(S3)チームがS3決済プラットフォームのパフォーマンス低下を引き起こしていた問題のデバッグ作業中であると説明しました。この作業中に、S3チームのメンバーが誤ったコマンドを実行し、当初の予定よりも多くのサーバーを削除してしまいました。

Amazonは次のように説明している。

残念ながら、コマンドへの入力値の1つに誤りがあったため、意図したよりも多くのサーバーが削除されました。誤って削除されたサーバーは、他の2つのS3サブシステムをサポートしていました。これらのサブシステムの1つであるインデックスサブシステムは、リージョン内のすべてのS3オブジェクトのメタデータと位置情報を管理しています。このサブシステムは、すべてのGET、LIST、PUT、およびDELETEリクエストを処理するために不可欠です。

同社はさらに、S3サブシステムは顧客に影響を与えることなく重要な容量の削除や障害に対応するように設計されているが、Amazonが経験した急激な成長により、サーバーの再起動と安全性チェックの実行のプロセスに予想よりも時間がかかったと説明している。

今後このような問題が発生するのを防ぐため、Amazonはサブセットを修正し、サーバー容量の削減速度を低下させるとともに、チェックを実行するための安全対策を追加し、再起動とチェック実行のプロセスを迅速化しました。また、Amazonはインデックスサブシステムを再パーティション化し、より小さなセクションに分割することで、復旧時間を短縮しています。

Amazon Web Servicesの障害は火曜日、主に米国東部のインターネットに大きな影響を及ぼしました。AppleはiCloudの一部のサービスをAWSに依存しているため、一部ユーザーのiCloudパフォーマンスも低下しました。Amazonは本日の投稿で、これらの問題について謝罪しました。

最後に、今回の事象がお客様にご迷惑をおかけしたことをお詫び申し上げます。Amazon S3 の長年にわたる可用性の実績を誇りに思うとともに、このサービスがお客様、お客様のアプリケーション、エンドユーザー、そしてお客様のビジネスにとっていかに重要であるかを認識しています。今回の事象から学び、可用性のさらなる向上に活かすべく、全力を尽くしてまいります。

havebin.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。