博客

F5 NGINX Plus 如何驱动 AI 集群

Liam Crilly 缩略图
利亚姆·克里利
发布日期:2025年7月3日

过去十年里,NGINX 开源一直是全球应用最广泛的Web 服务器之一,同时也是市场份额领先的应用交付解决方案。 我们助力从初创企业和学术研究项目,到全球最大的网站应用,实现负载均衡和反向代理。

正如它已成为应用交付的默认选择,NGINX 也已默默成为训练和服务 AI 应用的关键枢纽。 领先的 AI 框架、工具包、库和平台—如 Intel OpenVINO Model Server、NVIDIA Morpheus、Meta 的 vLLM、NVIDIA Triton 等—均内置对F5 NGINX Plus(及 NGINX 开源版)的原生支持,能够开箱即用地处理 gRPC/HTTP 代理、SSL/TLS 终止、支持健康检查的负载均衡和动态重新配置。 许多运行在 Kubernetes 集群上的 AI 服务和解决方案,将F5 NGINX Ingress Controller 列为管理 AI 集群内外流量的首选方案,无论是在模型训练还是推理阶段。 深入了解你会发现,它几乎无处不在地支持着各类 AI 运行。

在各种 AI 解决方案中,NGINX 是 AI 体系中的核心推进者。 无论您是在微调基础模型、流式传输 LLM 的令牌输出,还是将请求路由到实时异常检测端点,NGINX 很可能已经承担了关键的数据路径。

AI 团队为何选用 NGINX Plus

  • Kubernetes 原生入口: 现在大多数 AI 平台都运行在 Kubernetes 上,NGINX 在 Run:ai、KServe 和 Ray Serve 等工具中仍是默认或首选入口。 随着 AI 应用扩展至混合云、多云和边缘计算环境,NGINX Gateway Fabric以 Kubernetes 原生方式实现 Gateway API,具备轻量部署和细致流量管理,让 AI 团队能够精准控制请求路由、重试流程和监控,且无需引入额外的服务网格复杂性。
  • 大规模动态发布: AI 推理工作负载通常涉及高价值且依赖GPU的会话,要求精准版本管理和零停机。 NGINX 支持动态配置重载、加权流量分配和主动健康检测,帮助团队安全地发布新模型版本,不中断进行中的会话,也不卡GPU队列。
  • 生产级 API 处理: 像 Triton、vLLM 和 OpenVINO 这样的模型服务器依赖 gRPC 或 HTTP/2 以实现快速且结构化的通信。 NGINX 为这些协议提供成熟且高性能的支持,具备连接重用、会话粘性、TLS 终止和请求缓冲功能,这些都是应对突发或长时间运行的 AI 推理流量的关键。
  • 运营控制: NGINX Plus 提供 RESTful 配置更新、实时上游管理以及企业级 Web 应用防火墙(WAF)等高级功能。 如果您管理跨多个集群的数十甚至数百个 NGINX 实例,F5 NGINX One 会为您提供一个集中控制台,方便管理配置、状态和安全策略,非常适合支持多种模型类型或具备不同访问权限和风险特征的 AI 用例团队使用。
  • F5 AI 网关: 专为 AI 工作负载打造,AI Gateway 以安全为核心,扩展了 NGINX 处理 AI 流量的能力。 它提供可定制的防护措施,抵御提示注入和有害输出,同时具备限速和使用配额功能,帮助您防止在 GPU 资源受限环境中的抓取、流量泛滥和失控查询。 您可以针对不同的推理路径应用不同的安全规则——例如对生成模型实施更严格的策略,同时对向量 API 保持更宽松的访问。 所有流量都能在令牌或请求层面进行日志记录,接入可观测性管道,满足审计需求。

主流 AI 框架、工具和托管服务均已集成 NGINX

NGINX 是众多领先 AIOps 平台、工具和托管服务的首选入口之一。

人工智能框架

NGINX 的应用方式 

实际收益 

Intel OpenVINO 模型服务 F5 和英特尔展示如何在 NGINX Plus 后端部署模型分片 (YouTube) 一个网关可以连接CPU、GPU或VPU后端。
NVIDIA Triton Helm chart 安装 TritonNGINX Plus Ingress 以实现 gRPC 访问( GitHub HTTP/2 多路复用确保 GPU 持续高效运行。
NVIDIA Morpheus  《我是如何做到的》指南讲解如何通过 NGINX Plus Ingress 来保护 Morpheus(F5 社区 在实时安全推理之前,实现 TLS 卸载和自适应 WAF 防护。  
NVIDIA(XLIO) NGINX 在 NVIDIA Accelerated IO(XLIO)上的部署指南 (docs.nvidia.com) 我们提升了 TLS 卸载和性能调优,提供了带有 OpenSSL 支持的构建说明和示例文件。  
Meta vLLM  官方文档讲解通过 NGINX 对多个 vLLM 实例进行负载均衡 实现文本生成端点的快速水平扩展。

MLOps 团队选择 NGINX 产品,正如管理微服务和 API(AI 部署的关键组成)团队所做的那样。它轻巧、模块化、易于移植,并能应对各种环境中的大量令牌处理需求。 AI 开发人员和机器学习工程师可将 NGINX 作为构建常用 AI 方案的一环,采用平台或 MLOps 团队配置的容器映像来部署。 NGINX 支持大多数主流平台和处理器架构的硬件加速,有效提升性能。

将 NGINX 作为默认选项的 AI 组件涵盖了全面的 AI 基础设施,从底层的 GPU 调度到高层的模型服务、部署编排及企业级治理。 它们清晰展示了 NGINX 如何支持多样化场景:安全地将流量引导至推理端点,保障模型交付的可扩展性与效率,管理多租户集群访问,并严格执行关于版本控制、审计和合规的运营政策。

  • KServe: 部署指南基于已有的 NGINX Ingress Controller 域,以支持推理服务的请求路由。
  • Ray Serve: 文档详细说明了如何配置 NGINX Ingress Controller,以便您能直接访问仪表盘和模型端点。
  • Seldon Core v2: 生产部署章节指导您通过 Helm 配置 NGINX Ingress Controller,支持金丝雀发布和影子流量等应用场景。
  • Run:ai: 先决条件明确将 NGINX 作为多租户 GPU 共享 Kubernetes 集群的经过验证的入口控制器。
  • AWS SageMaker: 文档通过示例展示如何使用 NGINX 和 Gunicorn 来支持自定义推理容器的前端。
  • Azure AKS: 微软提供了托管的 NGINX Ingress Controller,作为集群内入口流量的内置且开箱即用的解决方案。
  • DataRobot: 安装指南建议您使用 NGINX Ingress Controller(v4.0.0 及以上版本),以实现对 EKS 上可移植预测服务器的基于路径的请求路由。

NGINX 助您顺利迈入 MLOps

这些平台和工具覆盖了整个 AI 基础架构的全链条——从基础的 GPU 调度到高级模型服务、部署编排以及企业级治理。 它们展示了 NGINX 如何支持多样化应用场景:安全地将流量路由到推理端点,实现模型的高效且可扩展交付,管理多租户集群访问,确保版本控制、审计和合规性等运营策略的严格执行。 清单还在持续扩大,我们期待看到下一代 AI 原生企业借助 NGINX 创造出的精彩成果。

借助F5 NGINX One,助您轻松扩展 AI 应用。