随着企业加速创新,开发自动驾驶汽车或大型语言模型 (LLM) 等由人工智能驱动的改变生活的产品,高效的基础设施对于扩大运营规模和保持竞争力至关重要。 从历史上看,数据中心专注于使用中央处理单元 (CPU) 进行通用计算,并使用图形处理单元 (GPU) 进行人工智能和机器学习的密集并行处理任务。 随着人工智能模型的规模和复杂性不断增长,数据中心已成为新的计算单元,突破了传统云网络的界限。 为了实现向数据中心规模计算的转变,数据处理单元(DPU)已成为计算领域的第三大支柱。
在我们早期的 AI 工厂系列中, F5 将 AI 工厂定义为满足大容量、高性能训练和推理需求的大规模存储、网络和计算投资。 与传统制造工厂一样,人工智能工厂利用预先训练的人工智能模型将原始数据转化为情报。
DPU 是一种可编程处理器,旨在以网络线速率通过硬件加速处理大量数据移动和处理。 2024 年末,我们宣布在 NVIDIA BlueField-3 DPU 上部署 BIG-IP Next for Kubernetes。 NVIDIA BlueField是一个用于数据中心基础设施的加速计算平台,专为支持 NVIDIA AI 工厂而构建。 CPU 负责计算应用applications的通用计算,GPU 擅长加速计算任务,例如与 AI 相关的大规模矢量和矩阵计算以及图形渲染,而 NVIDIA BlueField DPU 通常被纳入 PCIe(外围组件互连快速)网络接口卡 (NIC),负责 AI 集群主机或机箱的网络连接。 换句话说,NIC 现在本质上已经成为一个强大的处理器,针对进出服务器的数据处理进行了优化。 当多个主机或机箱位于单个 AI 集群中时,BlueField DPU 还可以充当集群间网络设备。
通过处理软件定义网络、存储管理和安全服务,BlueField DPU 减轻了 CPU 的计算负担,使其能够专注于其擅长的任务。 这种卸载能力对于人工智能工厂来说至关重要,因为必须快速处理和传输大量数据以满足复杂的人工智能模型和实时推理任务的需求。
BlueField DPU 对 AI 工厂的能源效率和可扩展性做出了巨大贡献。 由于人工智能工厂需要大量计算资源,因此电力和冷却的有效管理变得至关重要。 DPU 具有专门的加速引擎和高性能网络接口,可确保以最小的延迟和功耗处理和传输数据。 这种效率不仅降低了运营成本,而且还使人工智能工厂能够有效扩大规模。 通过BlueField DPU,AI工厂和大型基础设施可以实现均衡、高性能、高效率的基础设施,支持AI技术的持续创新和部署。
从F5 的 AI 参考架构来看,DPU 通常部署在 RAG 语料库管理、微调、训练和推理服务的功能区域以及支持这些功能的存储集群内。 此外,DPU 还用于许多需要高性能数据吞吐量和功率效率的applications中,包括支持 5G 无线接入网络 (RAN) 部署的 DPU 等示例。
F5 AI 参考架构突出显示了 DPU 通常部署的领域。
人工智能工厂对高效交通管理和强大安全性的新要求代表着一个重要转变,即注重数据流和强化基础设施以防止安全威胁。 部署在 NVIDIA BlueField-3 DPU 上的 F5 BIG-IP Next for Kubernetes 通过卸载和加速从 CPU 到 DPU 的数据移动实现低延迟、高吞吐量的连接。 此外,它还在可编程的 NVIDIA BlueField-3 DPU 上直接集成了防火墙、DDoS 缓解、WAF、API 保护和入侵防御等全面的安全功能。 这使您可以创建一个将 AI 模型和应用程序与威胁隔离的架构,确保数据完整性和主权。
BIG-IP Next for Kubernetes 支持多租户,可在单一基础架构上托管多个用户和 AI 工作负载,实现网络隔离。 使用 BIG-IP Next for Kubernetes 可以轻松管理大规模 AI 基础设施,因为它为管理网络、流量管理、安全和多租户环境提供了一个中心点。 通过提供详细的流量数据以实现网络可视性和性能优化,这简化了操作并降低了运营费用。 BIG-IP Next for Kubernetes 与 NVIDIA BlueField-3 DPU 的集成有助于确保 AI 工厂充分发挥其潜力,同时减少工具蔓延和运营复杂性。
对于投资人工智能的企业来说,确保其基础设施优化且安全是不可协商的。 部署在 NVIDIA BlueField-3 DPU 上的 F5 BIG-IP Next for Kubernetes是一项战略投资,旨在提供高性能、可扩展性和安全性,从而最大限度地提高大规模 AI 基础设施的回报。 对于部署 GPU 和 DPU 以支持 AI 工厂投资的组织,请联系 F5了解 BIG-IP Next for Kubernetes 如何增强您的 AI 工作负载。
F5 对 AI 的关注不止于此——探索F5 如何随时随地保护和交付 AI 应用。
有兴趣了解更多有关 AI 工厂的信息吗? 探索我们的 AI 工厂博客系列中的其他内容: