2019/07/02

Cloudflare の短時間のダウンタイム

Server サーバー ラック 大規模 システム

2019 年 7 月 2 日 Emil Hozan 著

会社の Web サイトがダウンすると、IT 担当者は問題を急いで解決し、根本原因を突き止めようとします。インターネット市場にさまざまなホスティングのオプションがあることを考えると、これはそれほど難しいことではありません。サービスを社内でホスティングする、オンラインプロバイダを利用する、あるいはトラフィックワークロードの動的負荷分散に役立つオプションを組み合わせて利用するといった、いくつものオプションがあります。そういったサービスのプロバイダである Cloudflare で、7月2日、あるインシデントが発生しました。

そして、その影響を受け、ウォッチガードの Web サイトもこの日の早朝にダウンしました。ウォッチガードは影響を受けた多数のサービスの 1 つにすぎませんでしたが、Cloudflare は約 20 分という短時間でこの問題を解決しました。そして、このことが Twitter で大きな話題になりました。

社内でサービスをホスティングすれば、システムへの直接アクセスとローカルのトラブルシューティングが可能になります。また、社内で最大のアップタイムを保証することにもなります。ただし、人員や関連するスキルセットの確保を始めとする多くの要因を考えると、すべての企業がこの方法を選択できるわけではありません。そして、それを代行するホスティングプロバイダは、最大のアップタイムを保証するよう最善を尽くし、多くの場合は、Cloudflare などの企業とのサービスの統合を可能にしています。たとえば、AWS も Cloudflare と似た製品(CloudFront)を提供していますが、もちろん、いくつかの相違点があり、両者の比較については、こちらに説明されています。しかしながら、オプションを選択するのは利用者であり、AWS でサイトをホスティングして CloudFront を使用するのか、あるいは Cloudflare と統合するのかを判断します。

これらのサービスを利用するメリットだけでなく、Cloudflare で発生したようなインターネットに広く影響する何らかのトラブルが発生した場合のことを考慮し、保護対策についても検討する必要があります。2017 年には、AWS もダウンして大規模機能停止が発生したことがあります。他にも、ローカルでサービスをホスティングし、これらのサービスを利用しないなどの選択肢もありますが、その場合は、まったく新しいワームの拡散といった可能性を考慮しなければなりません。

今回 Cloudflare のインシデントを取り上げましたが、これは致命的なものではなく、Cloudflare ですらこういうことも起こりうるという事例から、サービス提供のためにインフラの選択肢を検討する参考になればと思います。
まとめると、管理面、可用性、パフォーマンス、セキュリティの各要素を考慮した上での判断が求められると言えます。