博客

网络分段对于 AI 工厂的重要性

约翰·格鲁伯缩略图
约翰·格鲁伯
2024 年 12 月 31 日发布

多年来,网络分段一直是促进威胁隔离、服务质量差异化、事件响应和分析、合规性审计以及许多其他关键互操作性功能的关键。 然而,当我们推崇零信任原则并急于部署人工智能时,我们是否忽视了作为现代网络安全和服务运营基石的网络基础设施的核心要素?

在我们之前的 AI 工厂系列中,我们将 AI 工厂定义为满足大容量、高性能训练和推理要求的大规模存储、网络和计算投资。 为了实现这项投资的回报,AI工厂动态安排高价值图形处理单元(GPU)的使用并计算以执行这种训练和推理。 调度 GPU 需要为每个 AI 集群构建多个 AI 服务“租户”。 这引发了一个问题,许多运营团队往往直到为时已晚才意识到。

将 AI 工厂集群资源与网络分段相结合

在 AI 集群中,我们可以根据租户上下文对资源进行逻辑分段,从而实现租户配额、资源消耗限制、主机系统安全和管理基于角色的访问控制 (RBAC)。 但是,租户上下文不会通过为 AI 工厂网络的其余部分提供 AI 集群流量入口和出口的基本网络服务公开。 如果没有这个背景,即数据中心网络安全的基石,网络分段就是盲目的。 公开必要租户上下文的典型方法要么严重剥夺 AI 工厂的高价值计算能力,要么使网络路径速度减慢到低于服务延迟、带宽或并发所需的限制。  在有效利用高价值的 AI 工厂资源和适当的租户与网络集成之间,我们面临着错误的选择。

在公共云基础设施中,精心设计的多租户网络设计是云区域中所有服务的基础,并通过虚拟私有云 (VPC) 实现。 这种虚拟化网络分段对于安全和资源计量至关重要。 公共云提供商通过网络软件开发人员团队和专用网络硬件(包括 SmartNIC 和数据处理单元(DPU))来维护此功能。 公有云中的AI工厂集群旨在利用底层基础设施VPC网络编排。 维护 VPC 的成本相当大,但它是公有云业务模式的核心。  

问题出现了: 在没有与公共云提供商相同水平的投资的情况下,组织如何最大化其 AI 工厂投资并动态调度 GPU 和计算?

该行业在这一旅程中的第一站是使用服务器虚拟化来创建虚拟机 (VM)。 虚拟机利用硬件直通连接到分段数据中心网络。 只需将所有虚拟机放在同一个 VLAN 上,如果我们只关心单个 AI 集群中的单个租户,我们就可以继续正常操作。

虚拟机还可以解决 GPU 分段问题,因为 GPU 供应商支持将 GPU 设备细分为核心和内存集,然后分配给特定虚拟机的方法。 但是,对 GPU 设备进行分段并不是动态的,需要重新启动虚拟机。 此外,这种设计限制了创建可在多个租户之间计量的 GPU 资源池的能力。 这些是该解决方案的重大缺点。

将网络分段与多租户 AI 工厂集群相结合

当我们的 AI 工厂集群无法再为一个租户提供服务时,会发生什么? 问题转移到数据中心。 在 AI 工厂集群中,默认情况下,所有进入数据中心的网络流量都会经过源网络地址转换(SNATed)为发出网络请求的容器化工作负载恰好正在运行的单个集群节点 IP 地址,从而有效地掩盖了真正的来源。 然后,流量来自部署该节点的网络段。 对于多租户集群,这意味着我们失去了租户上下文,并且我们会得到来自多个租户的混合出站流量,而这些流量是无法进行整理、保护、故障排除或审计的。

节点灰汤图

默认情况下,集群租户上下文在出口处丢失。

当包含入口流量时,这个问题会变得更加严重。 虽然入口流量可能更容易管理,因为它是从已经分段的数据中心定向的,但如何将单个租户的入口流量与其出口流量关联起来? 答案围绕检索增强生成 ( RAG ) 和代理服务,它们进行大量通信以获取外部数据并利用外部服务。 这成为一个跨团队的努力,平台工程师和 NetOps 为客户识别问题或尝试通过安全审核。  

企业可能会问:“为什么我们不能像超大规模企业那样使用软件定义网络 (SDN) 覆盖技术并构建 VPC 网络?” 这当然是可能的,但会将成本转移到维护现有数据中心基础设施上的 SDN VPC 网络。 如果需要第 2 层(例如 VxLAN)分段,那么使用架顶式交换器编排隧道并配置这些交换机以匹配网络分段就会成为问题。 这就是超大规模企业选择 SmartNIC 并转向主机到主机级别编排的原因,从而使数据中心网络变得快速而又不智能。

大多数组织不具备网络编程人才,也不想拥有如此复杂的主机级编排,或者他们根本不能失去服务质量所需的主干网络可见性。 针对这些问题提出的路由解决方案,第 3 层(例如 IP),已经引导网络团队将每个 AI 集群节点变为数据中心的动态路由(BGP)对等体,并使用多个路由反射器尝试提供基本的 IP 子网租赁。 这也使运营商面临非常复杂的路由问题和安全审计,并导致了全区域的中断。

面向 AI 工厂的集群感知协调网络分段

人工智能工厂必须规划一个网络功能丰富、可编程、安全、低延迟的解决方案,该解决方案在带宽和并发性方面均可扩展。 必须从集群内部向 AI 工厂网络呈现第 2 层(例如 VLAN、VxLAN)和第 3 层(例如子网、IPSEC 接口)的租户上下文。 可观察性指标、日志和调试工具必须可供 NetOps 使用。

传统上,许多此类应用租赁和可视性解决方案均由F5 BIG-IP提供。 F5 BIG-IP 容器入口服务 (CIS) 动态发现 Kubernetes 服务并将其作为虚拟服务器公开给数据中心,BIG-IP 管理员将熟悉该配置对象,以便将其配置为呈现物理服务器和虚拟机。 虽然 BIG-IP 确实满足了我们在解决方案中寻找的许多要求,但它并不管理从 AI 集群到 AI 工厂网络的出站流量,而这对于维持分段是必需的。

为了解决这个问题,我们设计了F5 BIG-IP Next for Kubernetes ,这是一个基于我们的下一代平台 BIG-IP Next 构建的多租户计算集群解决方案。

节点灰汤图

BIG-IP Next for Kubernetes 使 NetOps 能够将集群租户关联到网络段。

BIG-IP Next for Kubernetes 完全通过 Kubernetes 控制平面进行管理,并支持 Kubernetes 管理身份验证、所有声明资源的 RBAC,通过命名空间识别 Kubernetes 租户,以支持入口和出口流量所需的网络分段。 这对于 AI 工厂等编排优先架构来说至关重要。

BIG-IP Next for Kubernetes 为 NetOps 提供了一种简化的方法来声明 Kubernetes 命名空间和网段之间的映射。 AI 工厂网络和 BIG-IP Next 实例之间的动态路由对等使用熟悉的路由配置语法。 NetOps 团队具有独特的能力,可以安全地排除集群入口和出口的实时网络流故障。 SecOps 团队获得每个集群租户入口和出口防火墙访问控制列表 (ACL)、分布式拒绝服务 (DDoS) 和 IPS 功能。

对于平台工程团队,BIG-IP Next for Kubernetes 通过卸载网络功能(例如数据入口和出口流量处理以及源 NAT 和防火墙)来减轻计算资源的负担。 这有助于降低运营成本,同时保持服务的可用性和高效性。

BIG-IP Next for Kubernetes 还支持 Kubernetes Gateway API,这是第一个为 NetOps、平台工程、DevOps 和 MLOps 中的特定组织角色建模的社区入口 API。 通过网关 API,BIG-IP Next for Kubernetes 将典型的基于第 4 层端口或第 7 层 HTTP(S) 路由入口服务扩展为适用于 DevOps/MLOps 的套件,即 TCPRoute、UDPRoute、HTTPRoute、TLSRoute 和 GRPCRoute——所有这些都通过主要 AI 框架中的相同 CI/CD 自动化进行控制。

从管理角度来看,BIG-IP Next for Kubernetes 通过 Kubernetes API 声明使 NetOps、SecOps、平台工程、DevOps 和 MLOps 有效地协同工作。 它具备您对 BIG-IP 的所有期望,但通过 Kubernetes 镜头支持网络分段。

DPU 的崛起

数据处理单元 (DPU) 在 AI 工厂中获得了指数级的发展。 在我们早期的 AI 工厂系列博客文章中,DPU 被定义成一种可编程处理器,旨在通过网络线速率的硬件加速来处理大量数据移动和处理。 通过 F5 的产品创新以及与 NVIDIA 的合作,我们发布了 BIG-IP Next for Kubernetes,以卸载入口和出口流量的数据流,同时支持网络分段,以及通过使用 NVIDIA 的 DOCA API 部署到 NVIDIA BlueField-3 DPU 来实现安全功能。 通过确保 AI 集群“数据供给”,可以最大程度地提高对 AI 工厂的投资。

由 F5 提供支持的 AI 工厂

在投资人工智能工厂时,确保基础设施优化、高效且可扩展是不可协商的。 部署在 NVIDIA BlueField-3 DPU 上的 F5 BIG-IP Next for Kubernetes 提供了动态 GPU 和计算调度所需的网络分段,同时提供了高性能可扩展性,以最大限度地提高 AI 投资的回报。 要了解更多信息,请联系 F5与您的 F5 客户经理和解决方案工程师或架构师取得联系。