关于S3中断的思考

这是新闻。 受欢迎的对象存储库Amazon S3昨天在其区域之一崩溃,并影响了其他多个站点,包括Slack和GitHub。

因此,这里有一些评论:

  • AFAICT的s3中断位于us-east-1地区。 其他地区未受到S3的影响。

欧洲S3
  • 这不是s3的首次中断。 您可能已经读到了这会影响11个9的承诺。 很有可能不是。 承诺是为了持久性(如果您写的话,不会读取错误),而不是可用性。 为了可用性。 SLA更低。

SLA是4个9.https://aws.amazon.com/s3/faqs
  • 在相当长的一段时间内,亚马逊的状态页面由于其自身的故障而无法正常工作。 在某些时候,您可能会看到所有绿色页面,并且在开始处仅显示一个文本,指示中断。 同样,许多地区的仪表板也不起作用。 这比中断本身更为严重
  • 如果您的应用程序是关键任务,并且无法承受3个小时的中断,请为此做好准备。 跨地区甚至跨多个提供商。 有云架构师使用单个区域中的三个可用性区域来设计“高可用性应用程序”。 顺便说一句,超过两个AZ的任何东西都在冲洗马桶。
  • 如果您的应急计划在没有Github的情况下无法部署,在没有Slack的情况下进行协调,则需要重新计划。
  • 许多人建议这与云或无服务器相反 。 我认为这就是您应该考虑云和无服务器的原因。 大规模管理系统非常困难。 留给了解它的人(亚马逊或其他提供商)

最后说明。 我们对他们从验尸中学到的东西感到非常兴奋。

编辑 :验尸出来了。 没我想的那么有趣。