博客

借助英特尔 OpenVINO 增强 AI 推理安全性: 利用 Intel IPU、F5 NGINX Plus 和 Red Hat OpenShift

Paul Pindell 缩略图
保罗·平德尔
发布于 2025 年 6 月 5 日

想象一下这样一个世界:人工智能推理任务不仅运行速度更快,而且更安全,只需极少的设置和维护工作。 听起来好得令人难以置信? 最新的基于英特尔 OpenVINO 的解决方案通过集成英特尔 E2100“Dayton Peak”基础设施处理单元 (IPU)、F5 NGINX Plus 和 Red Hat OpenShift 实现了这一目标。 这是一种突破性的配置,专为希望安全高效地扩展 AI 工作负载同时简化安装和操作的开发人员和企业而设计。

让我带您深入了解这个难题的所有部分是如何组合在一起的,以及为什么这种集成会改变人工智能推理的安全性和可扩展性。

1. 将关键的 AI 基础设施任务转移至英特尔 IPU

从本质上讲,此设置旨在通过将关键基础设施任务卸载到英特尔 IPU 来增强 AI 推理。 这使得运行英特尔 OpenVINO 推理服务器的主机系统能够将其资源专用于真正重要的事情:提供快速、准确的推理结果。 与 F5 NGINX Plus 和 Red Hat 的 Enterprise Linux OS、OpenShift 和 MicroShift 配对,该系统实现了性能、可扩展性和安全性的独特平衡。

核心工作流程如下:加密流量从 AI 客户端流向 NGINX Plus,后者直接部署在英特尔 IPU 上。 NGINX Plus 充当流量代理,解密数据并通过 PCIe 总线安全地将其路由到托管在 Dell R760 系统上的 Intel OpenVINO 推理服务器。 然后通过 NGINX Plus 将结果发送回 AI 客户端。

2. 在英特尔 IPU 上运行基础架构的关键架构优势

虽然工作流程本身就引人注目,但架构优势却增加了更多的价值。 通过将基础设施任务转移到 IPU,该解决方案既带来了性能优势,也为管理员提供了明确的职责划分。

在 Intel IPU 上部署 NGINX Plus 的一个重要好处是可以从主机系统的 CPU 上卸载基础设施任务。 流量路由、解密和访问控制等任务(这些任务可能耗费大量资源)完全由 IPU 处理。 这意味着主机 CPU 拥有更多的可用周期来专注于特定于应用程序的工作负载,例如运行额外的英特尔 OpenVINO 推理模型或处理资源密集型的 AI 流程。

在现实世界中,这意味着更好地利用昂贵的高性能服务器硬件。 主机 CPU 不会被后台基础设施任务所拖累,而是可以满负荷运行您最关心的工作负载。

该解决方案的另一个独特优势是基础设施服务和应用工作负载的分离。 通过在英特尔 IPU 上运行所有基础设施任务(如 NGINX Plus、网络管理和访问控制),同时将英特尔 OpenVINO 推理服务器保留在主机上,我们在控制平面职责之间创建了清晰的“明线”划分。

英特尔 OpenVINO应用管理员负责管理推理工作负载、部署和扩展 AI 模型以及优化应用程序级性能。 基础设施管理员负责监督英特尔 IPU 环境、管理路由、强制访问控制(通过 FXP 规则)并通过配置 NGINX Plus 实例确保基础设施服务安全高效地运行。

这种职责分离消除了歧义,加强了组织协作,并确保每个管理员都能专注于各自的专业领域。

总之,这些优势使得该解决方案不仅实用,而且能够有效扩展企业 AI 工作流程,同时保持一流的资源利用率和安全性。

3. Red Hat OpenShift 和 MicroShift: 推动自动化和简化

该系统的突出特点之一是它如何利用 Red Hat MicroShift 和 OpenShift DPU Operators 使配置和扩展变得几乎毫不费力。 老实说,当你看到这种自动化运行的时候,感觉就像魔术一样。 让我来分解一下:

有两个集群。 主机系统上运行着 OpenShift 集群。 具体来说,这是一个 OpenShift 工作节点,它在 Dell R760 上运行。 第二个集群是 MicroShift 集群。 它部署在英特尔IPU的Arm核心上。 这个轻量级版本的 OpenShift 提供了容器的灵活性,而不需要完整 Kubernetes 环境的开销。

这些集群通过 DPU 操作员协同工作,完成幕后繁重的工作。 它们互相交谈,交换有关活动吊舱和网络的数据。 这种连接对于动态管理安全和交通规则尤为重要。

这部分确实可以让开发人员的工作变得更轻松:动态规则创建。 以前,设置 FXP 规则(用于管理 PCIe 流量的访问控制)需要手动操作和 P4 编程知识。 现在,您要做的就是部署工作负载,操作员会自动处理所有事情:

每当部署适当标记的 OpenVINO 推理舱时,操作员就会动态创建新的 FXP 规则。 这些 FXP 规则允许通过 PCIe 总线进行通信,并且随着工作负载的增加或减少,系统会自动调整这些访问规则,从而消除配置中的猜测。

这种程度的自动化意味着任何人——从开发人员到系统管理员——都可以专注于人工智能工作负载,而无需陷入基础设施配置的繁琐工作中。

4. AI推理工作流程实战

现在让我们深入了解整个系统如何进行 AI 推理。 我们以使用英特尔 OpenVINO 深度学习部署工具包识别图像中的动物种类为例。 以下是工作流程的分步说明

首先,通过 GRPCS API 调用从 AI 客户端发送加密的图像数据。 在 Intel IPU 上运行的 NGINX Plus 解密数据并充当流量代理。 然后,该流量通过 PCIe 总线安全地传输到托管在 Dell R760 上的 Intel OpenVINO 推理服务器。 英特尔 OpenVINO 推理服务器使用 ResNet AI 模型处理图像,以确定每张图片中的物种。 例如,它可能会推断“这是一只金毛猎犬”或“那是一只虎斑猫”。 结果通过相同的路径发送回来——通过 NGINX Plus 并转发到客户端。

该系统可以设置为同时处理多个 AI 客户端批量图像。 即使多个客户端循环运行推理请求,系统仍将保持安全、无缝和响应。

5. 智能门禁控制,增强安全性

让我们来谈谈该系统的一个主要优点:安全性。 英特尔 IPU 不仅处理流量,还主动保护基础设施与主机上运行的推理工作负载之间的通信。

工作原理如下: IPU 使用 FXP 规则来控制通过 PCIe 接口的流量。 只有这些动态生成的规则(由 DPU 操作员管理)授权的流量才允许流动。 这可确保安全通信,同时阻止对主机系统的未授权访问。 这种分层安全有助于降低风险,尤其是对于通过 AI 管道处理敏感数据的企业而言。

6. 此解决方案为何脱颖而出

对我来说,这个解决方案的神奇之处在于它完美地融合了性能、自动化和安全性。 通过在 IPU 上隔离基础设施管理,同时在主机上托管推理工作负载,英特尔、Red Hat 和 F5 创建了一个既高效又安全的设置。

以下是此配置改变游戏规则的原因:

  • 简化设置: 忘记手动配置。 借助 DPU 操作员和动态规则创建,该系统尽可能接近即插即用。
  • 动态缩放: 无论您运行一个推理舱还是 20 个,通信和安全规则都会自动调整。
  • 增强的安全性: 基础设施和工作负载之间的严格分离,加上 PCIe 总线上的访问控制,创建了强大的安全边界。
  • 优化资源利用率: 将基础设施任务卸载到 IPU 可以释放主机 CPU 来执行高优先级的计算任务。
  • 职责分工明确: 管理员可以专注于他们的领域(应用或基础设施),而不会互相干扰。

人工智能推理的飞跃

这种基于英特尔 OpenVINO 的解决方案以一种毫不费力的方式将硬件和软件结合在一起。 英特尔的 E2100 IPU、Red Hat OpenShift 和 F5 NGINX Plus 提供了如何简化复杂的 AI 推理管道同时提高安全性和可扩展性的最佳示例。

无论您是开发人员、基础架构架构师还是企业决策者,该解决方案都为在现代容器化环境中管理 AI 工作负载提供了实用的蓝图。 如果这引起了您的兴趣,请随时联系 Intel、F5 或 Red Hat,探讨此配置如何适应您的工作流程。

看到这项技术不断发展真是令人兴奋——而我迫不及待地想看到下一组创新。 要了解更多信息,请观看我在 LinkedIn 上的演示视频