你是否用过人工智能应用来撰写内容或生成图像——输入请求,按下回车,然后开始等待? 还在等待? 结果回复慢吞吞、偏题,充满无关细节?
虽然这令人沮丧,但背后真正的重要是正在发生的事情。 提供这些 AI 体验的企业,要么自行打造高度优化的基础设施,要么依赖 GPU 即服务和大型语言模型即服务的供应商来实现。
让一切看起来简单,对这些提供商来说是巨大挑战。 他们在幕后不断努力,保持 GPU 高效运行、响应速度快、令牌使用合理,确保您享受快速且可靠的体验。
在人工智能基础设施领域,我们面临的唯一恒定因素就是不断变化。 模型在迅速演进。 工作负载会突然激增。 新的安全、合规或请求路由需求往往比发布周期更快出现。
这就是为什么智能且可编程的流量管理绝非“锦上添花”。 它是必须的。
借助部署于 NVIDIA BlueField-3 DPU 的 F5 BIG-IP Next for Kubernetes 2.1,我们将网络流量管理推向新高度,结合智能负载均衡与增强的可编程能力,精准满足 AI 基础设施的独特需求。
传统负载均衡将流量均匀分配。 这方法对 Web 应用效果不错,但在 AI 场景下,均匀不一定高效。 小规模提示不能用与大规模令牌请求相同的处理方式,否则 GPU 会过载、推理流程会阻塞,或资源会闲置。
BIG-IP Next for Kubernetes 2.1 利用实时 NVIDIA NIM 遥测数据让负载均衡更智能,包括待处理请求队列、键值(KV)缓存使用情况、GPU 负载、视频随机存取存储器(VRAM)可用性以及系统整体健康状况。 BIG-IP Next for Kubernetes 2.1 快速且智能地将每个请求路由到最适合的处理节点。
影响显而易见:
智能带来效率,可编程能力赋予您掌控力。 在 BIG-IP Next for Kubernetes 2.1 中,我们通过F5 iRules增强可编程性,让您能够立即调整应对,而无需等待下一个功能更新。
如今,你可以使用诸如 LLM 路由(实时引导跨模型和版本的请求)、令牌治理(在数据路径中直接执行配额和计费)以及 MCP 流量管理(扩展并保护 AI 代理间的模型上下文协议流量)等功能。
这仅仅是个开始。 可编程性真正的价值在于灵活性:随着新模型、服务水平协议和合规要求的出现,您可以制定自己的策略,不受开箱功能的限制。
BIG-IP Next for Kubernetes 2.1 将智能与可编程性相结合,不仅提升性能,更助您实现 AI 基础设施的高度可预测性、灵活适应性和成本优化。
无论 AI 云提供商是为计算、AI 模型,还是两者同时提供 GPU 容量,您现在都能实现按需扩展、简化盈利、保障安全且不影响速度,并且轻松定制,无需重写代码。
对供应商来说,您能少花时间处理紧急问题,更多精力专注于创新与发展。 对客户而言,您将获得更快、更精准、更可靠的响应。 这些幕后基础设施的提升,让每次AI交互都变得轻松顺畅,带来让用户持续回归的优秀AI体验。
观看这些简短演示,了解 BIG-IP Next for Kubernetes 如何驱动 AI 工作负载:
借助 BIG-IP Next for Kubernetes 实现 AI 令牌报告与安全保障
利用 BIG-IP Next for Kubernetes 扩展和管理 MCP 流量
您也可以在F5 AI 解决方案页面了解更多。