博客 | 首席技术官办公室

F5、英特尔和戴尔助力人工智能推理实现简易性、安全性和性能

Kunal Anand 缩略图
库纳尔阿南德
2024 年 5 月 21 日发布

企业希望构建由人工智能驱动的新应用和工作流程。但成功运营它们可能很棘手。 多种 AI 框架和应用环境给开发人员和安全团队带来了复杂性。 他们需要一个能够更轻松地构建、运行和保护快速推理的解决方案。

简化 AI 开发和安全

英特尔的 OpenVINO™ 工具包是一个开源工具包,可加速 AI 推理,同时提供更小的占用空间和一次写入、随处部署的方法。 它可以帮助开发人员用相对较少的代码行创建可扩展且高效的 AI 解决方案。 开发人员可以使用通过流行框架(如 TensorFlow、PyTorch、ONNX 等)训练的 AI 模型。 通过 OpenVINO,开发人员可以首先转换模型,然后进一步优化和压缩模型以获得更快的响应。 现在,通过将 OpenVINO 运行时嵌入到其application中以使其具备 AI 功能,AI 模型即可进行部署。 开发人员可以通过数据中心、云端或各种硬件架构边缘的轻量级容器部署其注入 AI 的application。

开发人员可能不希望将模型与application一起托管或嵌入到application中。 应用程序的模型可能需要不时更新,并且application可能需要运行多个模型来提供application提供的功能。 OpenVINO 有一个采用 OpenVINO 模型服务器的解决方案,这是一个软件定义的高性能系统,用于在客户端-服务器架构中提供模型服务。 OpenVINO 模型服务器的优势包括:

  1. 易于部署: 凭借使用 Docker 的容器化架构,使用 OpenVINO 模型服务器部署模型变得更加简单且可扩展。 它抽象了硬件配置和依赖关系的复杂性。
  2. 可扩展性: OpenVINO 模型服务器可以部署在集群环境中,以处理高推理负载并根据需要水平扩展。 这种可扩展性确保即使在繁重的工作负载下,推理性能也能保持一致。
  3. 远程推理: OpenVINO模型服务器支持远程推理,使客户端可以对部署在远程服务器上的模型进行推理。 此功能对于分布式applications或需要在强大的服务器上执行推理而客户端设备资源有限的场景非常有用。
  4. 监控和管理: OpenVINO 模型服务器提供监控和管理功能,允许管理员跟踪推理性能、资源利用率并有效地管理已部署的模型。

OpenVINO 简化了 AI 模型的优化、部署和扩展,但要在生产中运行,它们还需要安全性。 F5 NGINX Plus作为反向代理,为 AI 模型服务器提供流量管理和保护。 通过高可用性配置和主动健康检查,NGINX Plus 可以确保来自应用程序、工作流或用户的请求到达可操作的 OpenVINO 模型服务器。 它还允许使用 HTTPS 和 mTLS 证书来加密用户application和模型服务器之间的通信,而不会降低性能。

当部署在同一主机服务器或虚拟机上时,NGINX Plus 会过滤传入的流量并监视上游容器的健康状况。 它还提供内容缓存以加快性能并减少模型服务器的工作量。 这种组合提供了有效的安全性,但是 NGINX Plus 和 OpenVINO 模型服务器在单个 CPU 上部署时可能需要争夺资源。 这可能会导致速度变慢或性能下降。

加速 AI 模型性能

由于虚拟交换、安全和存储等基础设施服务会消耗大量 CPU 周期,因此英特尔开发了英特尔® 基础设施处理单元(英特尔® IPU),以释放 CPU 内核,从而提高application性能。 英特尔 IPU 是可编程网络设备,通过安全地加速数据中心的网络和存储基础设施功能来智能地管理系统级资源。 它们与搭载 Intel® Xeon® 处理器的 Dell PowerEdge R760 服务器兼容,可提供计算密集型工作负载的性能和多功能性。 与 Dell iDRAC 集成管理控制器的集成提供了 IPU 的闭环热控制。

将英特尔 IPU 与戴尔 PowerEdge R760 机架式服务器结合使用可以提高 OpenVINO 型号服务器和 F5 NGINX Plus 的性能。 得益于英特尔 IPU 的硬件加速器,在英特尔 IPU 上运行 NGINX Plus 可提供性能和可扩展性。 这种组合还为 AI 模型服务器留下了可用的 CPU 资源。

将 Intel IPU 与 NGINX Plus 集成会在 NGINX Plus 和 OpenVINO 模型服务器之间创建安全空隙。 这一额外的安全层可防止潜在的共享漏洞,有助于保护 AI 模型中的敏感数据。

边缘人工智能助力

F5、英特尔和戴尔的组合解决方案使得支持边缘 AI 推理变得更加容易。 借助英特尔 IPU 上的 NGINX Plus,支持视频分析和物联网等边缘applications的响应更快、更可靠。

该解决方案还适用于具有优化缓存和内容交付的内容交付网络,并为需要跨环境可靠性的分布式微服务部署提供支持。

利用 F5、英特尔和戴尔加速 AI 安全性和性能

通过结合硬件和软件解决方案,在任何地方安全、一致地为高性能 AI 推理提供支持。 轻松将 AI 推理部署到数据中心、云或边缘站点,同时保持可用性和性能以支持用户和 AI 驱动的应用程序。

欲了解有关 F5 与英特尔合作关系的更多信息,请访问f5.com/intel