博客 | 首席技术官办公室

SRE 聚焦现代企业架构

Tabitha R. R. Powell 缩略图
塔比莎·R·R·鲍威尔
2023 年 1 月 12 日发布

是否“在线”并不是衡量绩效的标准。 仅仅因为电通到了灯上并不意味着它就能给用户提供足够的光线来可靠地看清他们正在做的事情。 除了功率之外,还有许多不同的因素会影响用户是否能够看见。 灯泡可能会变暗——要么是因为灯泡快没电了,要么是因为电量不足。 如果灯泡没有足够的电力来保持其亮度,则可能是接线存在问题,或者调光器限制了电流。 如果灯泡很亮,灯罩可能太暗,或者空间太大,无法容纳一盏灯。 简而言之,有许多因素会影响灯的性能,进而影响用户的体验。 同样,除了传统的正常运行时间衡量标准之外,还有更多方法可以评估系统和应用的性能和可靠性。 可靠性还取决于服务水平。

系统和应用由许多组件组成 - 基础设施、API、安全性、工作流、逻辑、数据等 - 它们为了一个目的而聚集在一起,仅仅运行并不能确保可靠性。 就像灯的类比一样,您必须能够评估和评估所有组件,以便能够确认最佳性能和体验。 在实体业务中,确定服务水平的缺陷可能就像沿着“客户路径”评估整体体验一样简单,但在数字业务中,这可能是一项重大挑战。 由于传统企业架构造成的业务和 IT 孤岛,识别问题并找到其根本原因并不总是那么容易或有效。 企业领导者可能会认为存在问题,但如果一切正常,管理其组件的 IT 团队可能不会这么认为。 站点可靠性工程(SRE)是业务与IT之间的桥梁,通过服务水平目标(SLO)确保业务承诺的执行。

什么是 SRE?

站点可靠性工程起源于 21 世纪初的谷歌,据他们介绍,“当您将操作视为软件问题时,就会得到站点可靠性工程”。 按照我们的术语来说,它是一组流程、实践和工具,以及一种文化和思维方式,用于创建支持业务目标的可靠、高效和可扩展的系统。

SRE 注重的是可靠性(而不仅仅是可用性)和可扩展的系统。 我们补充说,这是一种心态和文化,因为就像安全一样,无论每个人都扮演什么角色,都应该积极地为高质量、可靠的系统做出贡献。 SRE 也是一种文化和思维方式,其实践通常嵌入在提供端到端整体服务的服务团队中。 这些团队通常负责通过监控可用性、延迟、性能和恢复来改进核心系统并实现创新,同时推动自动化和效率的持续改进。 本质上,他们正在观察整个房间,而不仅仅是确认灯是否亮着。

SRE 如何使用 SLI 来满足 SLO

站点可靠性工程定义了 SLO 和 SLI(服务级别指标)的措施以满足业务成果。 更简单地说,SRE 将开发、安全和运营团队的需求和目标结合起来,以可靠地兑现企业对客户的承诺。

如果业务承诺是用户将获得足够的光线来看清他们正在做的事情(服务水平),则 SLO 可以是每 10 平方英尺的空间维持一盏明亮的灯(可用性)。 同时,另一个 SLO 可以是定义的 MTTR(平均恢复时间),在这个例子中,是指更换损坏或即将报废的灯泡的时间量。 然后,SLI 是站点可靠性工程师和 IT 部门定义的阈值,以确保实现 SLO,例如监控光通量、流向每盏灯的电流,或因用户撞击或移动灯而导致的灯位置的边际变化。 在应用交付系统中,这些可能看起来像 CPU 利用率、API 调用和数据库查询时间等。 站点可靠性工程师需要定义影响业务 SLO 的 SLI 措施,并通过调整操作策略和配置来定义当其低于特定阈值时应采取的响应。

SRE 在现代企业架构中的优势

措施、阈值和响应是 SRE 与专为数字业务的应用交付而设计的现代企业架构的其他领域的交集。 操作数据(遥测)为 SRE 规定的定义措施和阈值提供可观察性。 自动化是工具、技术和实践的综合应用,使站点可靠性工程师能够以更少的辛劳扩展定义的响应,从而高效满足数字服务的 SLO。 数字服务的系统可靠性提高了您的数字业务获得积极用户体验的可能性。

重申一下,SRE 通过使用所有可用的工具、技术和流程,充当了 IT 和业务努力的桥梁,不仅仅是让系统“运行”,还确保它们可靠地运行。 通过在企业架构中采用 SRE,企业可以主动维护其系统应用,并尽早发现故障或异常,然后站点可靠性工程师可以在用户体验受到影响之前进行调查和解决。

要了解如何将 SRE 集成到您的业务中并支持向高效、可扩展的数字业务转型,请阅读我们的 O'Reilly 书籍《数字业务的企业架构》中由 Julia Renouard 撰写的“对速度的需求”一章