博客 | 首席技术官办公室

F5 正在从内到外扩展 AI 推理

Lori MacVittie 缩略图
洛里·麦克维蒂
2024 年 6 月 18 日发布

基础设施复兴有一句口号:让服务器服务,让推理。 

在技术发展的早期,我曾花费数年时间致力于测试和分析 SSL 加速器。 这些小卡片是为了解决因数字业务和商业爆炸式增长而产生的一个重大问题而设计的;即使用 SSL 的安全功能消耗 CPU 周期并且是性能问题的一个重要来源。 因此,包括 F5 在内的业界开发了硬件来卸载这些功能并让服务器提供服务。 

今天,我们看到同样的问题出现在人工智能上,特别是推理方面,而且讽刺的是,我们看到了同一类型的解决方案的出现;也就是说,让服务器服务推理的专用硬件。 

是的,我不确定这在语法上是否正确,但我们现在就这样做吧,可以吗? 谢谢。

正如我们所指出的,人工智能应用在架构上是现代应用。 但人工智能应用的核心是推理,就是人工智能与“正常”现代应用不同的地方。 

推理实际应用

我们已经了解了如何通过 CPU 和 GPU 组构建 AI 计算综合体。 这些计算资源具有必须维持的比例和平衡,以保证集群高效运行。 每当 CPU 无法跟上时,非常昂贵的 GPU 就会处于闲置状态。 

您会发现,推理服务器的处理中只有一部分实际上是推理。 其中很大一部分是 HTTP 和 API 请求的标准 Web 处理。 推理服务中使用 CPU 的部分通常会变得不堪重负。 当这种情况发生时,由于推理服务器端在处理请求时陷入困境,因此 GPU 的使用会越来越少。 

这可能就是为什么 15% 的组织报告称其可用和购买的 GPU 的使用率不到 50%( 2024 年大规模 AI 基础设施状况)。

这里的部分问题在于 CPU 资源被用于本应是基础设施的工作。 流量管理、安全操作和监控等服务也会消耗 CPU 资源,并增加整个系统的负载。 这会导致推理服务器的容量和性能下降,并导致 GPU 资源的利用率降低。 

幸运的是,这次基础设施复兴就是通过将基础设施操作转移到新的处理单元:DPU 来节省用于推理工作的 CPU 资源。 

xPU 细分图表

现在,DPU 的有趣之处在于它们实际上支持两种不同的模式。 一方面,它们可以通过 Infiniband 或以太网卸载 RDMA 等网络负载。 在构建需要大量数据流动的 AI 计算综合体时,这将提供巨大帮助,例如训练 AI 模型或为庞大的用户群扩展推理。  

但 DPU 也可以配置为“DPU”模式。 在 Kubernetes 中,这使得它们显示为单独的节点,可以在其上运行应用交付和安全等功能。 通过将不太可预测且要求更高的基础设施工作负载“卸载”到集群中自己的节点,可以有效地为推理服务保留 CPU 计算能力。 这使得F5 BIG-IP Next SPK(Kubernetes 的服务代理)等解决方案能够通过 API 管理和保护入站 NS AI 请求,并将它们正确分发到 AI 计算综合体内的适当推理服务。 

这种方法意味着组织可以利用 Kubernetes 基础设施管理方面的现有知识和投资,因为我们的解决方案是 Kubernetes 原生的。 核心、云、边缘——这并不重要,因为操作是在集群级别,并且在所有环境中都是一致的。 

它还将管理应用交付和安全服务的责任分开,这使得网络和安全运营团队能够独立于开发和机器学习运营团队管理的 AI 工作负载来处理基础设施。 

最后,利用 DPU 进行应用交付和安全性可以更好地支持组织的多租户需求。 这不仅仅是隔离客户工作负载,还隔离模型工作负载。 我们从研究中了解到,组织平均已经在使用 2.9 种不同的模型。 能够通过一致的解决方案管理每个模型的使用,将使人们对每个单独模型所使用和生成的数据的安全性和隐私性更加有信心。 

这并不是 F5 第一次与 NVIDIA DPU 合作开发AI 相关用例。 但这是我们第一次合作开发解决方案,帮助各种规模的客户构建可扩展且安全的 AI 计算综合体,以便他们能够安全、自信地在任何环境中利用推理能力,并优化GPU 资源的使用,这样他们就不会闲着