博客

校准application健康测量的重要性

Lori MacVittie 缩略图
洛里·麦克维蒂
2020 年 5 月 11 日发布

最近,当我重新进入珊瑚礁养殖领域时,我意识到了校准测量的重要性。 就像应用领域的快速变化一样,珊瑚礁养殖在过去五年中也发生了巨大的变化。 

今天,我可以通过联网监视器和探测器自动跟踪并提醒我是否出现异常。 网络和移动仪表板可以实现监控、编程,并可以一目了然地查看我的水箱的健康状况以及保持其运行的无数设备的状态。 

敏锐的读者会注意到 PH 似乎“低于最低值”。 不用担心,一切都好。 您会看到探头(传感器)未正确校准。 这是一个常见的问题;校准探头是一个充满失败的过程。 目前我知道探头校准得较低,并根据该知识自动调整测量值。 

就像珊瑚礁水族箱的健康一样,应用的健康也需要仔细关注关键指标。 偏差,尤其是剧烈的波动,可能表明存在问题。 当涉及到应用时,手动调整指标并不是您想要模仿的过程。 手动调整可能适用于一个或两个应用,但平均每个组织的数字产品组合中都有 100 到 200 个应用。 您需要根据典型的健康模式进行精确的测量。

与大多数网络和应用指标一样,这意味着在一段时间内采集样本并了解“高点”和“低点”。 然后可以使用阈值来确定异常行为。

问题不在于原则,而在于执行。

首先,我们一般只关注一个测量点:应用。 有趣的是,珊瑚礁水族箱的健康状况需要测量盐度和 PH 值以及温度,因为这两个值都会受到温度的影响。 衡量应用的健康状况大致相同;它会受到其他指标的影响,例如网络性能和负载。 不幸的是,大多数组织不一定全面地看待应用的健康状况。 应用本身可能没问题,但由于连接设备或网络性能不佳,客户体验可能会很糟糕。 

我们需要扩大测量范围,拓宽对应用健康状况的视野。 此外,我们需要校准额外的测量以确保我们能够识别什么是典型的,什么不是典型的。 因为“不典型的情况”可能预示着存在问题,或者更糟的是,存在一次攻击。

其次,规模的挑战源于我们需要对需要监控的每个应用的多个点进行校准(剧透:这就是全部)。 我们不能指望操作员手动校准那么多数据点。 这在人类看来是不可能的。

这时机器就可以发挥作用了。

高级分析

高级分析和机器学习是规模问题的答案之一。 机器能够并且确实以相当快的速度处理大量遥测数据。 它们可以提取、规范化并分析大量数据的模式和关系,而我们人类根本无法管理。 通过这种方式,机器学习能够在一系列相关数据点上校准“正常”状态,并立即检测出表明存在问题的异常模式。

我们很容易将应用的性能问题与周一早上的登录量激增联系起来。 不容易意识到的是,鲍勃通常直到周一下午才登录。 但今天,他依然如此。 这是一个人类操作员无法轻易识别的异常现象,因为我们不具备这种程度的可视性。 通过由构成代码到客户体验的应用、客户端和应用服务发出的足够遥测数据,高级分析可以检测到该异常。 它还可以对其进行标记或推送新的业务流程来验证 Bob 确实正在尝试登录。

这种功能类似于当今许多应用在设备级别所做的事情。 许多数字化流程都会推送验证码,并要求我们通过识别模糊图像中的所有汽车来证明我们是人类。 但触发新业务流的是设备详细信息,而不是在一天中不寻常的时间登录的行为。 将来,我们需要能够基于两者触发流程,特别是如果我们继续支持分布式劳动力。

这使得校准成为该过程的关键部分。 校准是通过进行(大量)测量并得出“正常”结果来实现的。 这也是一个挑战人类规模的过程,需要机器提取和分析大量遥测数据。

高级分析最终将实现可观察性,并产生能够发现隐藏的应用洞察 (DEM)、实现更智能的应用服务编排 (AI Ops) 并产生以前无法发现的商业价值 (AI 增强服务) 的新服务。

为此,我们需要生成大量的遥测数据,以便我们可以校准应用、用户以及其间数据路径中的一切的“正常”行为。