博客

借助 F5 Big-IP Next for Kubernetes 实现智能流量管理

Filiz Ucar Ozkan 头像
菲利兹·乌贾尔·奥兹坎
发表于2025年9月22日

你是否用过人工智能应用来撰写内容或生成图像——输入请求,按下回车,然后开始等待? 还在等待? 结果回复慢吞吞、偏题,充满无关细节?

虽然这令人沮丧,但背后真正的重要是正在发生的事情。 提供这些 AI 体验的企业,要么自行打造高度优化的基础设施,要么依赖 GPU 即服务和大型语言模型即服务的供应商来实现。

让一切看起来简单,对这些提供商来说是巨大挑战。 他们在幕后不断努力,保持 GPU 高效运行、响应速度快、令牌使用合理,确保您享受快速且可靠的体验。

在人工智能基础设施领域,我们面临的唯一恒定因素就是不断变化。 模型在迅速演进。 工作负载会突然激增。 新的安全、合规或请求路由需求往往比发布周期更快出现。

这就是为什么智能且可编程的流量管理绝非“锦上添花”。 它是必须的。

借助部署于 NVIDIA BlueField-3 DPU 的 F5 BIG-IP Next for Kubernetes 2.1,我们将网络流量管理推向新高度,结合智能负载均衡与增强的可编程能力,精准满足 AI 基础设施的独特需求。

更智能的负载均衡,加速您的AI应用

传统负载均衡将流量均匀分配。 这方法对 Web 应用效果不错,但在 AI 场景下,均匀不一定高效。 小规模提示不能用与大规模令牌请求相同的处理方式,否则 GPU 会过载、推理流程会阻塞,或资源会闲置。

BIG-IP Next for Kubernetes 2.1 利用实时 NVIDIA NIM 遥测数据让负载均衡更智能,包括待处理请求队列、键值(KV)缓存使用情况、GPU 负载、视频随机存取存储器(VRAM)可用性以及系统整体健康状况。 BIG-IP Next for Kubernetes 2.1 快速且智能地将每个请求路由到最适合的处理节点。

影响显而易见:

  • 更高的利用率意味着每个令牌降低成本。 优化 GPU 利用率,让 CPU 周期更充裕,减少 GPU 空闲时间。 这样你可以在每台服务器上支持更多租户,避免资源过度配置。
  • 响应更快,用户更满意。 缩短首次令牌时间(TTFT)和响应延迟,您将获得更顺畅的体验、更少的重试,使用频次也会提升。
  • 更高效的货币化带来可持续扩展的收入模式。 我们通过基于代币的配额执行和实时分层,实现清晰的货币化界限和可预测的定价体系。

与时俱进的可编程能力

智能带来效率,可编程能力赋予您掌控力。 在 BIG-IP Next for Kubernetes 2.1 中,我们通过F5 iRules增强可编程性,让您能够立即调整应对,而无需等待下一个功能更新。

如今,你可以使用诸如 LLM 路由(实时引导跨模型和版本的请求)、令牌治理(在数据路径中直接执行配额和计费)以及 MCP 流量管理(扩展并保护 AI 代理间的模型上下文协议流量)等功能。

这仅仅是个开始。 可编程性真正的价值在于灵活性:随着新模型、服务水平协议和合规要求的出现,您可以制定自己的策略,不受开箱功能的限制。

BIG-IP Next for Kubernetes 2.1 将智能与可编程性相结合,不仅提升性能,更助您实现 AI 基础设施的高度可预测性、灵活适应性和成本优化。

无论 AI 云提供商是为计算、AI 模型,还是两者同时提供 GPU 容量,您现在都能实现按需扩展、简化盈利、保障安全且不影响速度,并且轻松定制,无需重写代码。

对供应商来说,您能少花时间处理紧急问题,更多精力专注于创新与发展。 对客户而言,您将获得更快、更精准、更可靠的响应。 这些幕后基础设施的提升,让每次AI交互都变得轻松顺畅,带来让用户持续回归的优秀AI体验。

想了解智能流量管理如何发挥作用吗?

观看这些简短演示,了解 BIG-IP Next for Kubernetes 如何驱动 AI 工作负载:

借助 BIG-IP Next for Kubernetes 实现 AI 令牌报告与安全保障
利用 BIG-IP Next for Kubernetes 扩展和管理 MCP 流量

您也可以在F5 AI 解决方案页面了解更多。