Foreword
推荐序3

Google最早在2003年就提出了SRE这个概念,但至今仍有许多人认为SRE是一种运维岗位,现有的中文SRE著作几乎都是引进的译著,鲜有中国工程师结合自己的最佳实践来指导大家如何构建SRE工程。

中国是一个人口大国,不少互联网应用已成为影响全体国民的新基础设施。在数字化转型的浪潮下,不仅是狭义的互联网企业,传统企业、政府等也在进行数字化转型,软件的可靠性对每一个企业和组织来说都至关重要。我们需要一本系统性介绍SRE工程的指导书,帮助这个领域的工程师更好地保障整个软件系统的可靠性。

我从事互联网应用研发、运维、系统保障等工作多年,目前正致力于帮助广大企业更方便地构建符合SRE基础的可观测性平台,却没有想过把自己的SRE经验编撰成书,以帮助中国工程师在SRE领域进行提升。

观石用自己构建互联网应用的具体案例和最佳实践清晰明了地介绍了什么是SRE以及如何真正落地SRE。本书从理论基础出发,首先介绍了什么是软件可靠性工程,以及互联网软件(站点)保障可靠性的基本思路;然后讲解了如何有效地对可靠性进行度量,以及如何工程化地设计可靠性;最后讲解了可观测能力的构建、故障修复和保障能力建设,以及可靠性实验和可靠性管理的最佳实践,展示了互联网软件可靠性工程的全貌。可以说,本书既有权威的理论知识,又有大量实践经验和案例,能够让读者清晰地了解为什么、做什么以及怎么做。

与Google的SRE手册有所不同,本书更强调具体的最佳实践,针对中国互联网企业的实际情况,给予了完整的指导方针,能帮助企业在内部方便地推广SRE并快速落地,是真正值得认真阅读的好书。

对架构师、研发工程师、运维工程师来说,这本书可以开阔你的工作思路并提升工作效率;对技术团队负责人来说,这本书可以帮助你更清晰地了解构建可靠性工程的全过程,从而指导自己的团队有条不紊地进行可靠性保障。

感谢观石花费大量时间和精力撰写这本书,它是代表中国互联网工程师群体对软件可靠性工程的一次系统性总结,代表着中国工程师具备不输全球的技术和思考,为中国软件行业的发展贡献了自己的智慧。

——蒋烁淼 观测云创始人