传统可观察性又称监测 1.0,关乎于信息。探测、代理、日志和追踪提供了大量的数字健康数据。其源自系统、基础设施、网络和平台,在实时和后处理过程中产生,且成批产生,并不以目前的 KB 来衡量,而是以 GB 来衡量。
坦言之,我们拥有足够的数据。
我们所缺乏的是这些数据的产物;我们并非总能获得促成积极纠正行动的洞察。
我们常常只有二进制的状态指标。红色表示不佳,绿色表示良好。即使我们意识到有问题,我们也没有足够的信息来弄清问题的根源。没错,应用 A 的性能很差,用户总在抱怨。但这是为什么呢?是网络的问题?用户设备问题?还是平台或编排环境的问题?
即使假设我们能够快速发现是网络问题,对于其为何如此拥堵,我们也并无深入见解。是用户太多?有人今天提供折扣?是季节性问题吗?还是因为近期更新?
变量繁多,风险也很高。如果不能解决糟糕的用户体验问题,就会导致营收下降、应用遭遗弃以及声誉受损。若是数字化业务,业务也会基于数字化条件而受到影响。
这一事实推动我们迈向并超越可观察性,走向 AIOps。可观察性又称监测 2.0,是运营商和数字业务在此技术之旅中迈出的重要一步,因为他们尽全力了解并稳定用户体验和业务成果之间的关系。但这只是战斗的一半,另一半涉及分析和自动化。
可观察性不仅仅是“更好的可视化”,其能够在系统层面提供要发生之事的概况。它不仅能够以彩色图表的形式将网络、基础设施和应用性能罗列出来,而且可以良好协调,将所有可用的数字健康数据联系起来,描绘用户体验目前的整体情况。它是运营数据平台和海量市场活动背后的驱动力,因为供应商将自己定位为赢得每个企业梦寐以求的“运营数据平台”的衣钵。
但即使实现了这一点,我们仍要为解决那些不可避免出现的问题而奋斗。如果了解用户体验是战斗的一半,那么另一半就是找出原因,然后采取行动。
当然,问题总是不可避免,几乎所有的企业都缺乏服务于打造非凡数字体验所需的洞察。传统的分析方法是“灌装式”查询,无法识别数据中的关系或模式,无法发现这些缺失的洞察。机器学习提供了一个解决方案,即提供一种手段来解读海量数据,并发现必要的洞察,以解决性能下降的根本原因,或在攻击破坏服务或成功获得访问权之前加以识别。
仅有洞察也远远不够。根据这些洞察迅速采取行动以改善性能或阻止攻击的能力同样至关重要。进行人工审查和批准以改变策略,会阻碍企业在面对问题或攻击时的敏捷性。
我们需要依靠计算来对从遥测中收集到的洞察及时做出响应。在攻击开始五分钟后做出响应可能为时已晚。一般消费者大都缺乏耐心,在性能降级两分钟后响应肯定太晚。我们建立的计算系统在处理数据方面的效率非常高。考虑到“无论从尖峰还是从突触传输来看,大脑每秒最多可以进行大约一千次基本操作,或者说比计算机慢 1000 万倍”。(来源:Nautilus)我们需要利用这种能力来避免由人工操作引入到其他自动化过程中的缓慢进程。
如果您要参加 Daytona 500 大赛,您肯定不会在每个最后的转弯处停下来,然后推车走完剩下的一圈,对吧?没有完全自主的系统,这就是我们对于数字体验所要采取的行动。
长期以来,我们始终相信系统能够自动扩展服务,而在未来,我们将会信任它们能够采取纠正措施,保护服务和数据,确保为消费者提供非凡的数字体验。超过一半 (52%) 的 IT 决策者同意这项能力(最常被称为 AIOps)将对其企业产生战略影响。
这是一项功能齐全的数字体验作战计划:由从堆栈的每一层收集的数据驱动的闭环、自动化操作方法。
面临多项挑战。毫无疑问,这不是一项简单的解决方案,也不是随拿即用的解决方案。全栈可观察性 - 从网络到基础设施,从安全和交付技术到应用的每个组件收集遥测数据的能力 - 并不像传统监控供应商所希望的那样简单。在分布式云将成为常态的架构中,基于代理和探测的标准方法既没有效率也不具成本效益。本地遥测生成能力,例如通过采用开放遥测实现的能力,将是实现基于机器学习分析所需的全栈可观察性,以快速准确地产生符合预期业务成果的可操作洞察的最佳方式。
自动化也有漫长的路要走。当前,只有一半以上 (52%) 的企业将基础设施作为代码处理,显然,许多企业尚未在自动化方面“全身心投入”。但在关键路径中需应用这种能力。虽然没有这项能力闭环也可以运行,但付出的代价是什么?人工操作在此反馈环路中引入的阻抗会带来延迟,可能会使企业失去客户、损失声誉或宝贵的数据。
如今,大多数企业正处于数字化转型的第二和第三阶段。在因全球疫情而必须加快行动的促进下,许多企业已做出战术性的决定,即目前需要将其纳入战略方法中,为企业的数字化转型之旅做好准备。
战略性方法是朝着从可观察性到洞察再到自动化的闭环目标努力。这是我们称之为“感知可控,随需而变的应用”方法的一部分;这种方法为首席信息官提供了实现企业架构现代化的架构蓝图,从而使 IT 能够闭环,使企业能够作为全面的数字化企业运营。