博客

我们如何远程部署网络 PoP 以应对 COVID-19 危机

Nico Cartron 缩略图
尼科·卡特伦
2020 年 5 月 19 日发布

作为基于 SaaS 的控制平面的一部分,我们已经构建并运行了自己的全球主干网 (AS35280),并在我们的 PoP 之间使用了多个 100G 和 400G 链路。

这样,我们不仅可以完全控制区域边缘之间的端到端连接,还可以为客户提供相同的高性能连接和低延迟——跨他们的私有数据中心、边缘站点、公共云 VPC(AWS、Azure、GCP)以及 SaaS 提供商。

流行博客-1
Volterra 全球基础设施和私有骨干网

要求

我们在欧洲的业务范围已经相当广泛,覆盖巴黎、伦敦、阿姆斯特丹和法兰克福,但现有客户和新客户需要在葡萄牙里斯本建立新的 PoP。

这一切都是在 2020 年初达成的,并计划于 2020 年第三季度部署。 当然,这是在新冠疫情之前 :)

随着危机的发生,我们发现主干网上的流量大幅增加(当然也包括 DDoS 攻击,不过更多内容将在未来的博客文章中介绍),我们的客户也是如此。

他们要求我们在第三季度之前进行部署,因为他们需要这个 PoP 越快越好——更准确地说,是在五月底之前。 由于 Volterra 的员工都很友善,也因为我们喜欢挑战,所以我们仔细研究了满足客户需求所需的时间:

  • 我们至少需要两周的时间进行部署和测试,
  • 并有一周的时间来验证

知道现在是四月初,一切看起来都很好,我们决定继续启动该项目,尽管那确实是最糟糕的时机,原因如下:

  • 旅行禁令,
  • 没有数据中心访问权限,
  • 全球零部件短缺,
  • 更不用说健康风险了。

需要什么?

部署新的 PoP 不仅涉及路由器、交换机和电缆。 您还需要:

  • 进行网络工程,选择最佳位置和波束提供商,
  • 与选定的数据中心(本例中为 Equinix LS1)达成交易/谈判,
  • 与 IXP 打交道,确保对等端口的安全,
  • 当然还要订购相关的硬件/材料(路由器、交换机、电缆、防火墙……)

我们是如何做到的

由于危机持续,及时提供所需的硬件是不可能的。 因此,我们决定重复使用一些现有的材料,大部分来自我们的实验室。 这是一个可以接受的权衡(例如,使用的路由器将是 Juniper QFX10K,而不是计划中的 MX10K)。

我们通常在数据中心进行准备工作(因为需要电力和机架空间,而且......还有噪音!)但由于封锁,这项工作必须在家里完成。 我们的基础设施首席技术官 Raphaël 有一间足够大的办公室(包括一份 60 安培的合同,这在启动/供电需要 16 安培的设备时非常有用!),所以他可以独自完成整个准备工作,这样也可以避免其他员工参与/不得不离开。

流行博客-2
准备和准备阶段

一切配置完毕并多次测试后,我们发货到里斯本:

流行博客-3
准备发货!

Equinix 远程协助在里斯本安装机架

尽管我们对所做的设置很有信心(并且无论如何都可以通过 OOB 或主干网进行远程访问),但这仍然是第一次不是由我们直接部署新的 PoP,而是由其他人部署 😅

流行博客-4
我们的一个机架已经部署

我们在世界各地使用相同的机架设计,目标是保持一致,并为这个新的里斯本 PoP 采用相同的设置。

因此,我们必须极其精确地向 Equinix 远程操作员提供指令,以便他们可以模仿并只需“遵循指南”。

下面是我们发送给 Equinix 的部分程序 - 以便他们可以轻松地将所有东西架设并连接起来。

需要处理很多组件——不仅是硬件设备(路由器、交换机、防火墙、服务器),还有电缆,更重要的是,连接电缆的交换机和服务器端口。

流行博客-5

正如您在下面看到的,该过程尽可能详细,请记住 Equinix 技术人员有很多安装工作要做,所以我们越精确越好!

流行博客-6

这有用吗?

是的! 安装于 5 月 5 日开始,所有设备都安装到机架上并通电,没有硬件故障——我们很幸运,或者可能是由于我们的经验,装运和包装都做得很到位,或者两者兼而有之——但无论如何,一切都很顺利。

第二天,Equinix 技术人员处理好了电缆(铜/光纤),晚上 11:30,我们就可以从巴黎 ping 通里斯本 PoP!

安装于 5 月 7 日完成,接下来是最后的任务,例如 PDU 的配置、OOB 端口的交叉连接、IXP 端口端到端检查。 即使我们的交换机/防火墙配置完全正常,我们也不必要求 Equinix 更改配置。

最终安装效果如下:

流行博客-7

由于我们的要求非常高,所以我们并不是 100% 满意,例如,机架的后面板不像我们希望的那样干净——但一旦危机平息,我们就会解决这个问题,我们就可以再次前往葡萄牙。

“事后分析”——什么有效、为什么有效以及可以改进什么

尽管我们为成功应对挑战而感到非常高兴和自豪,但我们还是想回顾一下,反思哪些是有效的,尤其是哪些是可以改进的。

有效的方法:

  • Equinix:当事情进展不顺利时,让提供商知道是很重要的,但当事情进展顺利甚至超出预期时,这样做就更为重要 — — 这就是这种情况。 从销售和高级管理人员到数据中心技术人员,我们所获得的支持和响应简直令人难以置信——特别是在那些艰难时期——所以,真的,向 Equinix 致敬!

为什么这样做有效?

  • Volterra 本来就主要是一家分布式和远程优先的公司——特别是,我们负责 NetOps 的法国团队遍布法国各地,习惯于使用协作工具进行远程工作。
  • 我们有足够的备用/实验室硬件可供使用,这使我们能够准时完成
  • 我们上面简要解释的程序是我们多年部署和经验的结果,经过反复改进,并取得了成效。
  • 与我们的供应商保持良好的关系对我们来说至关重要:同样,当出现问题时,我们会立即打电话并且不会羞于告诉他们,但另一方面,这可以让他们改进,不仅对我们,而且对他们的所有客户都有好处。
  • 对速度/价格/质量的需求: 你必须有很高的期望——这包括在你需要之前对资源进行投资!

什么可以改进?

  • 我们意识到公司中只有少数人(3 到 4 人)可以处理这样的部署——我们需要找到一种扩展的方法
  • 此外,我们希望改进准备工作,以避免必须先进行全面准备
  • 最后,这样的部署不仅仅是一个技术问题: 销售/售前必须了解整个项目和各个步骤需要多少时间——并且不要假设 NetOps 可以解决任何问题,因此在没有适当的时间限定的情况下放弃项目。

我们在第一次远程 RIPE 会议(RIPE 80)期间介绍了此部署,您可以在此处观看录像:

https://ripe80.ripe.net/archive/video/raphael-maunier 3-the-challenge-of-operations-under-covid-19-restrictions main-20200513-132226.mp4