博客

F5 利用 NVIDIA BlueField-3 DPU 帮助服务提供商和企业充分发挥 AI 部署的潜力

Ahmed Guetari 缩略图
艾哈迈德·盖塔里
2024 年 10 月 23 日发布

在过去的几十年中,商业世界面临着由技术革命引发的许多转折点,而 F5 一直帮助我们的客户度过这些关键时刻。

当企业开始着手进行数字化转型时,applications成为业务的核心,F5 确保它们能够大规模交付和保护。 最近,当 5G 承诺以前所未有的速度、服务和可靠性彻底改变商业世界时,F5 就帮助移动公司大规模部署云原生 5G 核心。

现在,我们再次面临一个转折点,这可能是我们行业面临的最大转折点,因为各组织都在寻找方法来利用人工智能的力量。随着客户实施这项变革性技术,F5 正在帮助他们充分发挥其大规模人工智能部署的潜力。

实现最佳性能的难度

人工智能集群的日益普及正在推动向加速计算的转变。 尝试使用通用计算、网络、安全和监控方面的既定做法通常会导致效率低下、延迟和成本上升。

人工智能的海量数据处理需求给传统网络基础设施带来了相当大的压力,难以保持最佳性能。 NVIDIA BlueField 数据处理单元(DPU)已成为关键解决方案。 通过卸载和加速高带宽网络和安全任务(例如数据包处理、加密和压缩),BlueField-3 DPU 可提供最佳云网络连接。 这种优化提高了整体性能并加速了图形处理单元 (GPU) 对数据的访问。

服务提供商和大型企业正在构建大规模 AI 基础设施或AI 工厂,利用 NVIDIA 的全栈加速计算平台大规模执行生成式 AI 模型训练和推理。 企业需要最大限度地增加对人工智能工厂的投资,这可能意义重大。 然而,如果没有正确的基础,人工智能基础设施就无法得到充分利用。 

有效管理导向 AI 服务器的大量流量

部署在 NVIDIA BlueField-3 DPU 上的 F5 BIG-IP Next for Kubernetes旨在解决这些问题。 该解决方案专注于在NVIDIA 的 BlueField-3 DPU上卸载和加速F5 BIG-IP Next Service Proxy for Kubernetes (SPK) 。 它以 F5 在关键市场转折点期间解决关键application交付和安全挑战方面的领导地位为基础,同时利用 NVIDIA 在加速计算和高性能网络方面的创新。 

F5 BIG-IP Next SPK 的开发是为了解决服务提供商在向 5G 过渡时面临的 Kubernetes 问题。 5G 基础设施建立在云原生容器化架构上,使用 Kubernetes 管理容器工作负载。 然而,Kubernetes 最初并不是为 5G 环境所需的复杂用例而设计的。 BIG-IP Next SPK 帮助电信公司为 5G 基础设施定制 Kubernetes 网络,为他们提供动态扩展 5G 网络所需的可视性、控制力和安全性。 过去几年里,服务提供商已经利用 BIG-IP 为数百万用户带来了 5G 技术。  

正如 BIG-IP Next SPK 在上一次市场转折中为 5G Core 提供支持方面发挥了关键作用一样,它现在也在不断发展,以应对 AI 市场转折和 AI 工作负载交付的挑战,这些挑战与 5G 工作负载有相似之处,但涉及的流量量呈指数级增长。 为了满足这一新市场变化的需求,F5 发布了部署在 NVIDIA BlueField-3 DPU 上的 BIG-IP Next for Kubernetes,以有效管理流向 AI 服务器的大量流量。

该解决方案改变了现代application交付方式,以满足生成式 AI 的需求。它是 F5 BIG-IP 平台的 Kubernetes 原生实现,可处理网络、安全和负载平衡工作负载,位于 AI 集群和数据中心其他部分之间的分界点。 BIG-IP Next for Kubernetes 将 AI 集群命名空间映射到数据中心网络租赁,提供适当的安全性和简化的管理。 通过利用 BlueField-3 DPU 的硬件加速器,BIG-IP Next for Kubernetes 可以加速各种网络和数据服务,并通过卸载 CPU 计算资源来优化能源效率。

例如,Meta 在今年早些时候的 Networking @Scale 2024 活动中提到,其开源学习语言模型 (LLM) Llama 3 的训练受到网络延迟的阻碍,并通过调整硬件-软件交互解决了这个问题。 这种方法使整体性能提高了 10%。 虽然 10% 的提升看似很小,但对于需要数月训练的模型来说,这种提升意味着节省数周的时间。

降低 AI 部署的复杂性

部署在 BlueField-3 DPU 上的 F5 BIG-IP Next for Kubernetes 为寻求构建大规模 AI 基础设施的服务提供商和大型企业带来了多重好处。 这些包括:

  • 简化集成: 到目前为止,企业面临着将来自不同供应商的软件组件拼凑在一起以交付和保护其 AIapplications的复杂性。 BIG-IP Next for Kubernetes 将网络、安全、流量管理和负载平衡结合到单一解决方案中,简化了 AI 部署的复杂性。 它还提供了跨 AI 基础设施的这些功能的集成视图,以及优化 AI 工作负载所需的丰富可观察性和精细控制。 
  • 增强的安全性: BIG-IP Next for Kubernetes 支持关键安全功能和零信任架构,包括边缘防火墙、分布式拒绝服务 (DDoS) 缓解、API 保护、入侵防御、加密和证书管理 - 将这些功能卸载到 DPU 并释放宝贵的 CPU 资源。
  • 性能改进: BIG-IP Next for Kubernetes 加速了网络和安全性,这对于满足 AI 基础设施在云规模上交付applications的需求至关重要。
  • 多租户支持: BIG-IP Next for Kubernetes 支持多租户架构,因此服务提供商可以在同一 AI 基础架构上安全地托管多个用户,同时保持他们的 AI 工作负载和数据分开。

成功交付 AI 优化数据中心

通过仔细考虑挑战和可用的解决方案,组织可以成功提供针对 AI 优化的数据中心,而不会中断现有运营或损害安全性。 部署在 BlueField-3 DPU 上的 F5 BIG-IP Next for Kubernetes 成为一种引人注目的选择,它为 AI 工作负载(包括 Llama 3 等大型 LLM)提供无缝集成、增强的安全性和改进的性能。

要了解更多信息,请阅读我们的新闻稿NVIDIA 的博客文章