虚拟化和灵活的许可助力 CSG 实现显著的现代化

大多数企业都在转变其 IT 运营方式——从本地到云端、从物理到虚拟。 随着 COVID-19 的爆发,几乎每家公司都在加快其现代化进程。

CSG 就是这种情况,它是一家拥有 35 年历史的电信和有线电视行业客户互动服务提供商。 该公司为北美最大的有线电视提供商提供数字解决方案,以更有效地管理客户关系、计费和运营。

几年前,CSG 因流程老化的限制而举步维艰,且缺乏新应用所有者的参与。 正当 CSG 帮助其客户实现现代化时,它自己也该改进运营了。

CSG 软件工程副总裁 Erica Morrison 的职责是帮助 CSG 的运营工程团队建立 DevOps 组织和文化 — — 尽管她之前只负责软件方面工作。

她说:“对于一名开发人员来说,突然进入运营世界并看到他们所面临的严峻挑战,这对系统来说是一个冲击。” “这确实让我更加感激我们所有运营团队所做的一切。”

将开发最佳实践带入历史上仅负责运营的团队,使 CSG 能够应对一系列挑战:利用他们以前从未使用过的 F5 功能、添加新工具以及采用提供所需灵活性的企业许可协议。

一系列挑战

艾琳·加里根 (Erin Garrigan) 当时是该团队的 Scrum Master。 现在,作为一名主管,她回顾了 CSG 在 2016 年设想的几项举措,这些举措加起来就是五年甚至十年计划。

“从技术角度来看,我们在变更方面有太多的手动流程,而且无法充分了解谁在做什么,”她说。 “许多不同的团队都可以访问我们的设备,但我们却缺乏所需的强大控制。”

这些并不是唯一的问题。 整个基础设施不稳定,缺乏常规健康监测和警报,这意味着团队通常不知道设备处于不良状态,直到他们听到客户反映的问题。 硬件现代化是另一个重要问题。

通过基础设施即代码进行转型

该团队的第一个也是最大的项目是使用 F5 iApps 将所有内容转化为源代码。 由于 CSG 的流程一直是手动的,因此他们首先在夜间导出设备配置,这样团队就可以查看配置。最终他们发展到了一种新模式,即源代码现在决定了设备上的内容。

“一年之内,我们通过手动更改和基础设施即代码概念创建了 100 多个 iApp,”Garrigan 说道。 “将每个手动设置编入 iApps 需要付出巨大的努力,但我们创建了一些工具并随着时间的推移解决了这个问题。”

现在,基础设施已定义为代码,团队可以分解其应用程序的功能。 运营工程在每天接收多个变更请求的动态服务器环境中支持数十个应用团队。 实施自助服务流程允许 CSG应用团队的内部消费者使用沙盒 BIG-IP 设备来配置更改、检查更改并通过管道推送更改以进行验证和代码审查。 他们还创建了另一个工具,允许这些用户自己将更改投入生产。

“当时,我们真正提供的是负载均衡和应用交付即服务,”CSG 软件开发总监 Phil Todd 说。 “我们使用 Jenkins 来驱动我们的大多数自动化自助服务功能以及报告功能。 并且我们编写了一些自己的 C# 代码来在后台实现该功能。”

使用 BIG-IQ 实现可视性和变更管理

在 CSG 庞大而多样化的应用集中,提高对这些变化的可见性是另一个关键需求。 在以前的手动世界中,应用团队可能会因重叠的更改而互相干扰。 查找错误代码是一个比实际需要更复杂的问题。

加里根说:“环境中肯定会出现一些奇怪的现象。” “我们不知道为什么它会变得奇怪,我们只知道一定有人做了什么事。”

手动流程还意味着,一旦发现问题,团队通常必须追踪做出更改的个人才能全面了解问题。

为了解决这个问题,团队实施了 F5 BIG-IQ,并开始围绕变更流程本身进行变革,引入有关系统健康状况和变更的整体影响的自动报告。 他们还创建了一个 Grafana 仪表板来监控一千多个端点,以支持更改的验证。 现在,通过将其配置作为代码,加上围绕部署构建的自动化,CSG 可以真正了解所做的所有更改。

据 Todd 介绍,这导致了 CSG 当前环境与过去的手动流程之间的最大区别之一 — — 如果某个变更导致某些问题,现在的平均修复时间可能只有几分钟,而以前团队调查并解决问题可能需要几个小时。

“登录 Kibana 可以记录所有更改 — — 部署了哪个版本以及之前的版本是什么,”他说。 “因此,我们不用坐在那里思考为什么它不起作用,只需按下 Jenkins 中的按钮即可部署先前版本的代码。”

虚拟化是关键

下一步的发展是解决基础设施的可扩展性、灵活性和稳定性。 尽管他们运行着包括 F5 VIPRIONS 在内的数十台物理硬件设备,但大多数应用仅通过两台设备流动:一台用于来自互联网的外部流量,另一台用于内部流量。

这导致团体规模过大,一旦发生故障,对组织而言风险更大。 “如果其中一个设备出现故障,那么实际上就会影响到每件产品和每一位客户,”托德说。

与此同时,CSG 的应用开始迁移到公司的私有云和公共云,但系统在扩展到这些环境方面的能力有限,并且不允许迁移到 AWS。  

虚拟化对于解决这些问题也起到了重要作用。 iApps 中的基础架构即代码提供了灵活性,可以减少整体故障组的大小,从而建立更多特定于应用程序的负载均衡。 这也为在需要时最终发展为公共云打开了大门。

“我们最近发生了一次停电,影响了一款产品,”莫里森说。 “一年多前,它会影响所有产品。 随着更多实例被分成更小的组,我们也可以在需要时进行故障转移,并且影响半径非常小。 因此,对稳定性的投资已经为我们的内部和外部客户带来了一些好消息。” 

企业许可带来所需的灵活性

CSG 通过从 F5 BIG-IP 虚拟版转向新的 F5 企业许可协议(ELA),获得了进一步的运营灵活性并节省了成本。 以前,该团队主要在公司奥马哈总部的一个数据中心内运作。 他们的灾难恢复解决方案包括在事件需要时在第三方数据中心建立其服务。

几年前,当该团队建立第二个数据中心时,他们准备探索这些数据中心的高可用性,但他们以前的许可协议和物理硬件限制了他们的选择。 由于硬件固定,公司面临着可扩展性、可用性以及扩展到公共云的能力方面的挑战。

Todd 表示:“转向 F5 企业许可协议和虚拟解决方案让我们能够自由地在需要时支持我们所需的内容并添加第二个数据中心。” “它给予我们自由去探索并响应内部客户的需求。”

如今,团队可以更加灵活地发展并实现各种服务的高可用性。

展望未来:云端应用交付

在对环境进行了现代化改造后,CSG 的运营工程团队现在有了空间来规划未来。 该团队希望进一步利用 F5 的安全功能,整合使用 BIG-IP 和 Amazon Web Services (AWS) 的参考架构,并通过 NGINX 引入新功能。借助 ELA,该公司能够将现有预算转移到新架构和功能集。

莫里森还与 CSG 的产品所有者合作制定了新的路线图,以在迄今取得的成就的基础上进一步改进系统监控和警报、添加新的监控器并开发应用交付卓越中心模型。

她说,从总体来看,这是一个不错的地方。 目前,该团队已经实现了其最初五年愿景中的几乎所有项目。 通过他们建立的合作伙伴关系、自助服务功能和配置,剩下的就是将更多的应用程序所有权移交给应用程序团队自己。

“这是我们第一次问自己,下一步该做什么?”她说。 “我们已经取得了如此大的进步,我们不再需要再自寻烦恼了。 现在我们要积极主动,并在已经建立的坚实基础上继续前进。”

挑战
  • 手动流程
  • 固定硬件阻碍了所需的可扩展性和可用性
  • 缺乏健康监测和应用可见性

好处
  • 提高应用可见性
  • 更简单的公共云迁移路径
  • 提高对客户需求的响应能力
产品