博客

F5 凭借基于 NVIDIA BlueField-3 DPU 的 BIG-IP Next for Kubernetes 强大全新 AI 功能,释放创新潜能

Ahmed Guetari 缩略图
艾哈迈德·盖塔里
发布于2025年6月11日

企业领导者知道他们需要把人工智能放在首位。 但这说起来容易做起来难。 人工智能可能很复杂、昂贵且有风险。 技术和生态系统都在快速发展。

首先,我们明显不再采取“一刀切”的做法。 预测性 AI/ML、生成性 AI 以及现在的代理性 AI 都在针对特定行业和应用进行调整。 随着专用人工智能模型的激增,人工智能格局变得越来越多样化。

现在很明显,人工智能应用需要定制的基础设施,不仅针对性能、成本和能源效率进行优化,而且还能够跟上人工智能模型、应用和代理快速发展的需求。 一个完美的例子是模型上下文协议 (MCP),这是一项几个月前还不存在的强大创新。

随着各组织竞相利用生成式人工智能和越来越多的人工智能代理,一些组织正在构建自己的专用数据中心。 其他人则转向专门的提供商,部署定制的云规模基础设施来支持多种大型语言模型(LLM)。 这些平台通常被称为AI 工厂或 Neoclouds,在加速计算、网络和存储方面投入了大量资金,旨在满足 AI 工作负载的强大性能和扩展需求。

构建自主、可扩展的 AI 和 LLM 推理基础设施需要应对四个关键挑战:

  1. 延迟和性能——快速、响应迅速的人工智能至关重要,尤其是对于交互式用例而言。 没有人喜欢盯着旋转器等待人工智能思考。
  2. 数据安全和隐私——法学硕士经常处理敏感数据。 确保安全、私密的推理至关重要,而且由于云和本地环境之间的安全规则和合规性不同,因此更加复杂。
  3. 法规遵从性——随着人工智能在各个行业的扩展,欧盟通用数据保护条例 (GDPR) 等法规对数据使用、模型选择、透明度和公平性增加了严格的规定。 导航这些至关重要。
  4. 模型管理和集成——人工智能模型需要持续管理,包括版本控制、监控和更新,并且必须顺利集成到现有系统中。 它不是即插即用的,但尽管人工智能模型面临安全挑战,MCP 等协议使其变得更容易。

部署最适合任务的芯片

F5 正与NVIDIA携手合作,助力确保 AI 工厂和云级 AI 基础设施满足现代 AI 的需求。今天,在NVIDIA GTC Paris 2025上,我们将揭晓部署在 NVIDIA BlueField-3 DPU 上的 F5 BIG-IP Next for Kubernetes的全新功能,引领创新新纪元。 这是基于我们在 2025 年圣何塞 GTC 上推出的增强性能、多租户和安全性。 作为F5应用交付和安全平台的一部分,F5 BIG-IP Next for Kubernetes 在NVIDIA BlueField-3上原生运行,这是一款功能强大、可编程的处理器,专为数据移动和处理而设计。

通过卸载网络处理、存储管理和安全操作(例如加密和流量监控)等任务,DPU 可以释放宝贵的 CPU 周期和 GPU 资源,以专注于 AI 训练和推理。 这减少了瓶颈,提高了性能,改善了延迟,帮助 AI 工厂更快、更高效地运行,交付更多的代币。

DPU 位于网络接口卡上,管理跨服务器以及外部客户/用户/代理与 AI 工厂之间的数据流,从而大规模协调网络和安全。 部署在 NVIDIA BlueField-3 DPU 上的 F5 BIG-IP Next for Kubernetes 于 4 月全面上市。

将 AI 提示引导至正确位置,以获得正确结果

近几个月来,法学硕士学位课程发展迅速,目前提供各种规模、费用和特定领域的专业知识。 为每个提示选择正确的模型不仅可以确保更好的响应和法规遵从性,还可以优化资源消耗、成本和延迟。

通过如今对NVIDIA NIM微服务的集成,组织现在可以智能地将 AI 提示请求路由到最合适的 LLM 或精确地路由到每个任务的正确模型。 例如,轻量级、节能的模型可以处理简单的请求,而更复杂或更大、更专业的提示则指向更大或特定领域的模型。

这种方法使AI工厂能够更有效地利用计算资源,从而将推理成本降低高达60%。 对于模型提供者和模型使用者来说,获得更好的响应、更快的速度和更低的成本是双赢的。

少即是多: 缓存消除了冗余计算并提高了令牌输出率

除了GPU之外,NVIDIA还在软件层面不断创新,以应对AI推理中的关键挑战。 NVIDIA Dynamo NVIDIA NIM 中包含的 KV 缓存就是很好的例子。 NVIDIA Dynamo 引入了分解服务进行推理,将不同 GPU 集群中 GPU 计算密集型的上下文理解(预填充)与内存带宽密集型的响应生成(解码)分离。 通过高效处理调度、路由和内存管理,这提高了 GPU 利用率并简化了跨数据中心的扩展。 KV缓存优化了模型上下文的存储和访问方式。 通过将常用数据保存在 GPU 内存中并将其余数据卸载到 CPU 或存储中,它可以缓解内存瓶颈,从而无需额外的硬件即可支持更大的模型或更多用户。

BIG-IP Next for Kubernetes 的一个强大新功能是支持 KV 缓存,这可以加快 AI 推理速度,同时减少时间和能源消耗。 结合 NVIDIA Dynamo 的智能路由,基于 GPU 内存使用情况和其他标准等一些明确的指标,这可以显著缩短第一个令牌的时间 (TTFT)、提高令牌生成率,并最终实现更迅速的吞吐量。 DeepSeek 的容量已提高了 10 倍到 30 倍。

客户可以利用 F5 可编程性来扩展和调整F5 BIG-IP功能,以极高的性能满足其精确而独特的需求。

MCP 的运行和安全保障,以及安全自主的代理 AI

对于大多数组织,尤其是大型组织,例如拥有复杂传统系统的金融服务公司、电信公司和医疗保健公司,代理人工智能具有强大的吸引力。 这些基于 LLM 的 AI 代理可以浏览复杂的数据库、服务器、工具和应用以检索精确的信息,从而实现更高的效率和洞察力。

MCP 由 Anthropic 于 2024 年 11 月推出,它正在改变 AI 系统与现实世界数据、工具和服务交互的方式。 MCP服务器作为标准化的连接器,使AI模型能够实时访问API、数据库和文件系统,从而使AI超越静态训练数据的限制,高效地执行任务。 随着采用率的增长,这些服务器需要具有负载平衡、强大安全性、身份验证、数据和工具授权以及无缝 Kubernetes 集成的高级反向代理,从而使 MCP 成为主权 AI 基础设施和保护及支持代理 AI 的关键支柱。

部署在 NVIDIA BlueField-3 DPU 上的 BIG-IP Next for Kubernetes 作为 MCP 服务器前面的反向代理,可以扩展和保护 MCP 服务器,验证请求、分类数据、检查其完整性和隐私,从而保护组织和 LLM 免受安全威胁和数据泄露。 同时,F5 的可编程性使得确保 AI应用符合 MCP 和其他协议的要求变得非常简单。

如果代币是新的货币,那么让我们计算它、管理它,并明智地使用它。

在最近的收益公告中,一些主要组织已经开始披露每个季度产生的代币数量、其增长情况以及与之相关的收入。 这反映了我们客户日益增长的需求:能够像预算一样跟踪、管理和控制令牌的使用,以避免公共云有时发生的意外成本。

这就是为什么 BIG-IP Next for Kubernetes 现在包含用于计量和管理整个组织的令牌消耗的新功能。 当客户询问时,我们会认真倾听并尽力解答。

构建安全、快速、自主且灵活的人工智能工厂

随着各行业发展人工智能工厂,各国建立自主人工智能,人工智能代理正在涌现,基础设施、生态系统和应用必须灵活且适应性强。 有效部署人工智能的组织将行动更快、更好地服务客户并降低成本。 但要实现这一潜力,人工智能必须保持安全性、可扩展性和成本效益,同时不能减缓创新的步伐。

这就是 F5 的作用所在,去年三月,我们实现了性能、多租户和安全性。 现在,借助 BIG-IP Next for Kubernetes,我们可以实现以 AI 速度发展的创新。

我们的承诺: 每美元、每瓦特可获得更多代币。 尝试一下并亲眼见证差异。

您打算参加 2025 年巴黎 GTC 展会吗?

F5 很荣幸成为 NVIDIA GTC Paris 2025 的金牌赞助商。 欢迎参观我们的 G27 展位,体验 F5应用交付和安全平台如何支持安全、高性能的 AI 基础设施,并参加我们与 NVIDIA 联合举办的“安全基础设施设计”会议: 构建值得信赖的人工智能工厂,6 月 12 日星期四上午 10:00(欧洲中部夏令时间)。 

要了解有关在 NVIDIA BlueField-3 DPU 上部署 F5 BIG-IP Next for Kubernetes 的更多信息,请参阅我之前的博客文章。 此外,请务必阅读我们的今天宣布的新闻稿。 

F5 对 AI 的关注不止于此 - 探索F5 如何随时随地保护和交付 AI 应用