AI基础设施指为大规模开发、训练、部署和管理人工智能(AI)及机器学习(ML)工作负载而专门配备的硬件和软件系统组合。 强大的AI基础设施让您能高效创建和部署多样的AI和ML应用,比如聊天机器人与虚拟助手、自动驾驶汽车、医学影像分析、精准农业,以及防范银行交易欺诈的异常检测。
阅读这篇博客,了解 AI 基础设施的实例,掌握 AI 基础设施的组成及 AI 工作负载的定义,认识 AI 基础设施与传统 IT 基础设施的不同。 我们还会探讨如何构建、优化并保障 AI 基础设施的安全。
首先,为什么 AI 需要不同的计算基础设施呢? AI 应用处理数据和消耗计算资源的方式与传统应用截然不同,而传统 IT 系统无法满足 AI 和机器学习负载的特殊需求。
满足人工智能所需的专用基础设施需针对其生命周期进行定制,但这并未阻碍人工智能和机器学习投资的持续增长。 根据F5 2025 年应用战略报告,96% 的受访组织正在部署人工智能模型。 此外,71% 的麦肯锡人工智能现状调查受访者表示,其组织在业务职能中持续使用生成人工智能。
人工智能需要强大的计算能力: 人工智能工作负载会消耗并实时生成大量数据。 比如,训练驱动生成式人工智能的深度学习模型(LLM)涉及数百万参数和复杂的数学运算。 生成式人工智能的基础设施需要专用的高吞吐量处理器、可扩展且高速的存储、低延迟内存访问和大带宽网络。
这套基础设施需支持 AI 管道各阶段中 AI 应用的所有核心组件,确保每一步都具备出色的性能、扩展性和响应能力。 整个过程始于数据摄取,即收集数据以供 AI 模型使用。 这环节要求配备强大的流量管理和带宽,确保高吞吐量数据流畅高效地传输。
数据采集后,模型训练是利用训练数据集反复打造新 AI 模型的过程。 基础设施需具备强劲计算能力,确保模型能在执行特定任务时不断优化、达到高准确度。 推理阶段是运行时,前端应用与训练完成的 AI 模型进行交互。 应用向模型发送输入,模型处理请求后返回响应。
代理系统让人工智能不仅仅局限于数据处理和请求/响应交互,而是能够主动采取行动,无需人为干预。 要实现代理型人工智能,我们需要具备先进的编排能力和实时决策功能。
许多人工智能应用在边缘运行,支持传感器、摄像头和工业机械等物联网设备的分析和自动化。 这些实时用例需要针对低延迟、分布式优化的基础设施 靠近数据源进行处理。
AI基础设施和IT基础设施有什么区别? 人工智能基础设施利用专门的硬件和数据平台来促进加速计算并支持人工智能工作负载的密集计算需求。 例如,它依赖于针对并行处理进行优化的图形处理单元 (GPU),而不是标准 IT 系统中通常用于通用工作负载的传统中央处理单元 (CPU)。
人工智能基础设施解决方案还包括专门的软件,如机器学习库和框架,这些工具对开发、训练和部署AI模型至关重要。 这些工具在传统IT体系中并不常见,后者更专注于企业应用和数据管理。
人工智能基础设施堆栈通常被称为人工智能工厂,类似于传统制造工厂,通过一系列重复且多为自动化的流程生产产品。 而在人工智能工厂中,生产的产品是智能。 引用 NVIDIA 创始人兼首席执行官黄仁勋的话:“人工智能如今已经成为基础设施,而这类基础设施,就像互联网、电力一样,需要依托工厂来构建。 我们今天打造的,正是这样的工厂。 它们不再是传统的数据中心……你注入能量,它便生产出极具价值的成果……”
为有效支持 AI 和 ML 工作负载,您应构建专用的 AI 工厂基础设施架构,包含专门的计算、存储和软件能力。
计算资源包括:
数据存储和处理资源包括:
机器学习软件资源包括:
上述AI工厂基础设施解决方案通过集成系统与工具,支持AI应用的开发、部署和管理,帮助组织更高效、安全且大规模地构建和维护AI模型。
许多组织在构建支持 AI 工作负载的基础设施时遇到重大挑战,主要体现在成本和复杂性方面。 近一半参与F5 数字企业成熟度指数报告调查的受访者担心构建和运营 AI 工作负载的费用,另有 39% 表示他们的组织尚未建立可扩展的 AI 数据实践。
要解决成本问题,首先要明确目标并制定专门的预算。 定义您想要用人工智能解决的具体挑战,以便您可以专注于战略性地花费预算,确保投资带来可衡量的价值并产生最大的影响。 目标通常可以驱动所使用的框架。 所使用的框架可以决定所使用的计算类型。 这些用例还可以推动 AI 工厂内部的网络架构以及边缘连接和处理。 另外,考虑利用基于云的存储解决方案。 AWS、Oracle、IBM 和 Microsoft Azure 等云提供商提供基于云的 AI 基础设施,包括 更实惠的即用即付数据模型,无需对内部基础设施进行大量投资即可实现存储可扩展性。
网络解决方案在构建可扩展的人工智能时发挥关键作用。高带宽、低延迟的网络可快速传输存储系统与计算资源之间的大量数据。 此外,数据处理单元(DPU)专为高效管理大规模数据流动和支持多租户设计。 它们通过让单一基础设施运行多个人工智能负载,实现数据处理的高效扩展。
另一项AI基础设施要考虑的是如何整合现有系统。 我们建议您仔细规划传统IT环境与新AI基础设施之间的数据流动,保证兼容性,减少业务中断,并在数据进入AI工厂时验证其完整性。 随着AI基础设施的发展,安全风险也在增加,例如敏感数据泄露、模型被盗或API漏洞。 您应实施严格的访问控制、加密和监控措施,确保AI环境遵守欧盟通用数据保护条例(GDPR)及HIPAA等数据隐私法律。
如果您没有明确的策略和细致的规划,人工智能工作负载和应用会导致网络拥堵、延迟增加、性能瓶颈以及更高的安全风险。
优化您的 AI 基础设施性能,提高流量管理能力,支持高吞吐量和低延迟的数据管道,确保训练和推理数据稳定顺畅传输。 借助检索增强生成(RAG)技术,赋能 AI 模型动态访问并引用专有数据集,提升响应质量与语境关联度。 应用AI 集群感知的编排网络分段,动态调配 GPU 和计算资源,缓解网络拥堵,通过 AI 基础设施自动化提升整体系统效率。
保护人工智能基础设施时,要优先保障API安全。 由于AI应用高度依赖API,我们建议构建强有力的身份认证、速率限制和访问控制策略,以防御攻击和滥用行为。 实时检测AI模型的流量,从而防范提示注入、数据泄露以及恶意输入输出等提示级威胁。 借助Web应用扫描器持续监控潜在风险,及时发现并防御新威胁,以及未经授权的AI工具和影子AI在您的环境中活动。
F5 提升 AI 管道中 AI 基础设施和工作负载的性能、可靠性、可扩展性与安全性。 F5 针对AI 应用和数据交付的解决方案,提供安全且加速的高性能 AI 网络与流量管理,确保 AI 驱动的应用始终快速、稳定并受控。 F5 解决方案优化 AI 网络,让数据以线速传输,流量无缝扩展,实现统一且经济高效的端到端性能。
F5 还为 AI应用和工作负载提供安全性,以保护 AI 应用程序、模型和数据,并具有完整的可见性、强大的安全性和无缝的可扩展性——由单一平台F5应用交付和安全平台 (ADSP)提供支持。 F5 ADSP 具有自适应分层防御功能,可为最密集的工作负载提供一致、全面的安全性、高可用性和低延迟连接,使组织能够通过来自值得信赖的行业领导者的统一、强大的安全性来保护其 AI 投资。
探索F5 AI 参考架构,掌握在混合云和多云环境中构建安全、可靠且高效 AI 基础设施的最佳实践。