安全书评:Google网站可靠性工作簿

几位同事推荐了由Google工程师撰写的“网站可靠性工作手册” ,以保持其系统正常运行。 如果您也是这样的话,那真是太棒了,而且引人入胜的快速阅读或一本很长的练习练习。

在这里免费阅读。

此次审查是通过安全人员而非运营工程师的视角进行的。 我只做了零个练习。 但是,前15章中的每一章都教给我一些新知识,或者使我对它的主题更深入地思考。 很少有书能为我做到这一点。

我故意写这本书时没有这本书,而我的下划线却摆在我面前,因为这迫使我从记忆中回想起我个人相关的部分。

首先是第13章(紧急响应)和第14章(事件管理)。 我查了一下章节标题,那又如何。 这些章节的要旨很熟悉,因为我是写《安全事件策略》,《安全事件响应工作手册》的人,并且是一家相对知名的初创公司的安全事件指挥官。 安全事件实际上是零乐趣,我一直在想是否为下一个事件做好了准备。 不断。 这两章使我对自己的方法进行了认真思考和不同的思考,这比我所读过的有关事件管理的其他内容要重要得多。

其他章节的重点包括:

  • 第3章(拥抱风险):创建一个允许人们快速承担大风险并建立限制后果的防护措施的环境。 这真是令人发指,以至于实际上与我11岁的儿子谈论了这一章,以及它如何映射到我的养育理念。
  • 第4章(服务水平目标): SLO确实应该是工程和产品(而不仅仅是工程)的共同责任。 对于软件即服务,如果产品不可用,则会损坏产品。 因此,当可用性下降到99.5%以下(他们的建议)时,产品应在后备设备上增加新功能开发,直到恢复可靠性为止。
  • 第5章(消除辛劳):我正处在成长型初创公司的尴尬之处,在该日常工作中,为GDPR,合规性,与客户合作以及其他单调乏味的人工流程而辛苦工作仍然是日常工作。 我们尚未扩展到在服务和工程师上花钱使许多事情自动化的规模。 讨论的是员工可以忍受而不会疲惫的辛劳与发展的比率(认为是1:1)。 那不是开玩笑。
  • 第9章(简单性):这呼应了我们的CTO不久前所说的话,事实证明这是我解决所有问题的黄金法则:如果您对问题的解决方案并不简单,则可能找不到解决方案。 简单永远是最好的。 简单总是可行的。 我也经常跟我儿子说那个。

读一读。 前15章是最概括的章节,任何人都可以与它们相关。 最后15个左右与实际操作人员更加一致。我一直在告诉儿子有关本书中要点的事实应该很好地表明材料的永恒质量。