博客 | 首席技术官办公室

云遣返与 SRE 运营之间的奇妙联系

Lori MacVittie 缩略图
洛里·麦克维蒂
2022 年 7 月 28 日发布

 

我热衷于哲学。 我还差三门课程就能获得学位,每隔几年我就会告诉自己,有一天我会完成它。 我把我的喜爱传递给了我的大儿子,他获得了哲学学位,以补充他的计算机科学和数据科学学位。 是的,我们的短信对话经常很有趣,谢谢你的询问。

因此,我非常熟悉统计学和逻辑学中所谓的事后谬误,由此我们得到了“相关性不是因果关系”这一说法。 这是一种逻辑错误,即假设如果事件 Y 在事件 X 之后发生,那么事件 Y 一定是由事件 X 引起的。这种谬论最著名的例子来自鲍比·亨德森 (Bobby Henderson),他用一张图表说明了从相关性推断因果关系的荒谬性,该图表表明全球变暖是由于世界上海盗数量减少造成的

是的,这没有意义,但人们用来得出因果关系的许多图表也没有意义。 仅仅因为两个数据点相互映射并不意味着一个数据点导致了另一个数据点的出现。 在很多情况下,将两者关联起来甚至没有任何逻辑意义。 毕竟,有海盗和全球变暖? 实际上没有人认真对待此事。 

但当我们深入探讨 SRE 运营与云遣返之间的关系问题时,这一点很重要。

需要明确的是,我并不是建议采用 SRE 实践会导致云遣返。 但我认为两者之间存在着密切且有意义的关系。 云提供商Google创建 SRE 作为一种实践并不是一个错误。 与 SRE 相关的模型、思维方式和技能组合对于成功运营云基础设施和服务至关重要。

云遣返是真实存在的

公有云遣返本身在某些圈子里是一个有点禁忌的话题。 想想安德森·霍洛维茨 (Andreessen Horowitz) 在发表《云计算的成本,一个万亿美元的悖论》时所引起的争议,并提出公司正在从云计算中撤回,并因此实现了显著的成本节约。 有些人可能会让你相信这不会发生,但有足够的数据和轶事证据表明,这确实发生了。

在我们的 2021 年报告中,我们向市场询问了有关公共云遣返的问题。 仅有 13% 的企业已将应用程序遣返,另有 14% 的企业正在计划这么做。 一年后,这两个数字分别上升了 40 个百分点,达到 37% 和 30% 。 这并不异常,因为有多家可靠的分析公司报告了类似的结果。 有趣的是,遣返率并不是全球通用的。 亚太地区(APCJ)和拉丁美洲(LATAM)地区遣返员工的可能性远低于欧洲、中东和非洲(EMEA)地区和北美地区。  

我坚持认为,各家公司正在从公共云中撤回应用程序,问题不在于‘他们这样做了吗?’而是‘他们撤出了多少工作负载——以及这些工作负载要流向何处?’ 我们将在明年完成 2023 年application战略状况研究时尝试回答这个问题。

目前,我们一直在深入研究可能实现遣返的因素——SRE 运营。 因为即使云计算成本的增加是促使企业将业务回流的一个原因,但如果你不具备在其他地方高效运营的技能(从而受益于较低的成本),那么你为什么要将业务回流呢?

我们认为,SRE 运营实践和技能使公司能够遣返并保持证明该决策合理性所需的效率和成本节约 — — 无论他们将这些工作负载转移到另一个公共云、本地还是边缘。

深入挖掘数据

从表面上看,SRE 实践的采用和应用与云遣返之间存在很强的相关性,这似乎表明具有以类似云的方式运营能力的组织,即他们采用了 SRE 实践,可以有效地收拾他们的玩具(应用程序)并回家(在本地或其他地方) ,因为他们可以

遣返 sre

换句话说,只有 4% 未采用 SRE 实践的组织从公共云中遣返了应用程序。 在采用 SRE 实践的人中,高达 73% 的人也已遣返应用程序。

当然,采取做法并不一定意味着应用做法。 因此,我们研究了组织实际如何操作应用、系统和基础设施。 具体来说,我们研究了使用 SRE 实践的运营百分比。 或许并不令人意外的是,这产生了类似的结果。

云遣返

在使用 SRE 实践运营 0% 应用程序、系统和基础设施的企业中,81%不会遣返。 相反,在 76%–99% 的应用程序、系统和基础设施运营中使用 SRE 实践的人中,有 54% 已经遣返。 当组织使用 SRE 实践来运营超过四分之一 (25%) 的应用程序、系统和基础设施时,遣返似乎开始加速。

还记得我曾指出过 APCJ 和 LATAM 遣返的可能性很小吗? 他们也不太可能利用 SRE 实践来运营他们的应用程序、系统和基础设施。 事实上,拉丁美洲和亚太地区(29%)超过四分之一(26%)的企业使用 SRE 实践运营的应用程序、系统和基础设施为零。 在欧洲、中东和非洲? 这只有5%。 在北美,这一比例甚至更低,仅为 2%。

有意义的关系还是奇怪的巧合?

采用 SRE 作为运营实践的组织与公共云遣返率之间似乎存在着无可争辩的相关性。 但这是一种有意义的关系还是仅仅是一个奇怪的巧合?

我要争论的是,因为这是我的博客,这是一种有意义的关系。

与 SRE 相关的实践和技能完全适合大规模运营云环境。 正如我之前所说,Google 创建了 SRE 并撰写了相关书籍,这绝非偶然。 我之前说过(现在我再说一遍)——云的价值在于它的运营模式,它可以大幅降低每笔交易的成本——无论是通过 HTTP 交换还是客户会话来衡量。 这使得应用和数字服务的规模具有成本效益。

使用自动化和实践往往侧重于有意义的事件而不是非破坏性事件,为负责维护高水平可用性和性能的人员(以及他们的专业知识)提供了具有成本效益的规模。

采用和使用 SRE 实践使组织能够有效地扩展运营,无论是在公共云、本地还是边缘。 数据告诉我们,组织似乎正在利用这种能力来做到这一点。

要了解有关现代化架构和采用 SRE 操作来服务数字业务的更多信息,您可以阅读我们的新 O'Reilly 书籍《数字业务的企业架构》