BLOG

什么是人工智能工厂?

Hunter Smit 缩略图
Hunter Smit
Published October 11, 2024

当 ChatGPT 于 2022 年 11 月发布时,我们提出的问题和输入的指令都十分简单:“给我讲一个关于 X 的故事”或者“以 Z 为主题,写一段 A 和 B 之间的叙述”。通过这些问题以及当时与 GPT-3.5 的初始互动,我们试图去发现这项全新的热门技术将如何影响我们的日常生活。如今,2024 年即将接近尾声,人工智能与我们的生活相辅相成:帮助我们调试和编写代码、编译和汇总数据,以及推动自动驾驶车辆发展等。这些都是现代人工智能工厂的成果,而我们正处于初始阶段。

本文是“人工智能工厂”系列的第一篇文章,旨在探讨人工智能工厂的组成要素,以及不同要素之间如何协同工作,以大规模地生成人工智能驱动的解决方案。

人工智能工厂的定义

在人工智能的发展过程中,人工智能工厂的概念应运而生,用以类比人工智能模型和服务如何创建、完善与部署。与将原材料加工成成品的传统制造工厂相似,人工智能工厂就是庞大的存储、网络和计算投资,以满足大容量、高性能的训练和推理需求。

在这些工厂中,由服务器、图形处理器 (GPU)、数据处理器 (DPU) 和专用硬件组成的网络协同工作,处理海量数据、执行训练人工智能模型的复杂算法,以实现高度准确性和高效率。这些基础设施经过精心设计,能够处理训练和部署大规模模型以进行实时推理所需的巨大计算能力。它们采用先进的存储解决方案来管理和检索海量数据集,从而确保无缝的数据流。

负载均衡和网络优化可最大限度地提高性能和资源利用率,从而防止出现瓶颈并确保可扩展性。这种硬件和软件组件的编排可使人工智能工厂生产先进的人工智能模型,并不断对其进行改进,以适应新数据和不断变化的要求。因此,人工智能工厂体现了人工智能开发的工业化,提供了支持下一代智能应用所需的强大基础设施。

为何人工智能工厂至关重要?

正如 NVIDIA 首席执行官黄仁勋在 Salesforce Dreamforce 2024 上所说:“历史上,计算机技术的发展速度从未超过摩尔定律。而如今,我们的发展速度远超摩尔定律,可以说我们的速度是摩尔定律的平方。”

随着人工智能投资成为关键的市场差异化因素和运营效率的驱动因素,大规模部署人工智能正变得愈发重要。为此,企业需要不断建立和完善模型,并整合知识库和实时数据。人工智能工厂这一概念强调,人工智能应是一项持续的投资,而非一次性努力。它可以为企业提供将其人工智能计划付诸实施的框架,使其更能适应不断变化的业务和市场需求。

人工智能工厂的组成要素

F5 运用了过往协助客户大规模部署高性能、安全的现代应用集群的专业知识,开发了人工智能参考架构框架。鉴于人工智能应用是最现代化的应用,通过 API 紧密连接并且高度分布式,该框架解决了交付先进人工智能应用所必需的关键性能、安全性和运营挑战。

人工智能参考架构图

F5 的人工智能参考架构图

七个人工智能构建块

在参考架构中,我们定义了构建全面的人工智能工厂所需的七个人工智能构建块:

1. 推理

概述前端应用与推理服务 API 之间的交互;以向人工智能模型发送请求和接收响应为中心。这为更复杂的交互奠定了基础。

推理

2. 检索增强生成

通过添加大语言模型 (LLM) 编排和检索增强服务,提升基本的推理功能。其详细说明了从向量数据库和内容存储库中检索额外语境的情况,该语境随后被用以生成语境丰富的响应。

检索增强图

3. RAG 语料库管理

关注于利用检索增强生成 (RAG) 进行推理所需的数据摄取流程。其包括数据规范化、嵌入和填充向量数据库,为 RAG 调用准备内容。

rag 图

4. 微调

旨在通过与模型的交互来提升现有模型的性能。其无需从头开始重建,只是对模型进行调整,并强调从推理和利用 RAG 进行的推理中收集数据,以便对工作流程进行微调。

微调图

5. 训练

涉及从头开始构建一个新模型,尽管可能会使用之前的检查点(重新训练)。其包括数据收集、预处理、模型选择、训练方法选择、训练和验证/测试。这一迭代过程旨在创建适合特定任务的强大模型。

训练图

6. 外部服务集成

将 LLM 编排层与数据库和网站等外部资源连接起来。其将外部数据集成到推理请求中,但不包括分块和嵌入等文档预处理任务。

外部服务图

7. 开发

包括开发、维护、配置、测试和部署人工智能应用组件的工作流程。其包括前端应用、LLM 编排、源代码控制管理和 CI/CD 流水线。

开发

这些构建块共同构成了人工智能工厂的支柱。每个构建块都在人工智能输出的创建、部署和完善方面发挥着至关重要的作用。此外,人工智能工厂计划倾向于为大多数构建块制定自有专属的实施策略(而非租赁或外包),因此在以下列出的部署模型中,大多数构建块都选择了自托管模型。

四种部署模型

对于每个构建块,客户必须选择合适的部署模型和实施策略(自有、租赁或外包),为实现其人工智能计划的业务目标定义最佳参考架构。以下为前四种模型:

  • AI-SaaS 涉及使用软件即服务 (SaaS) 实施推理服务,其中服务提供商管理基础设施、模型更新和扩展。用户通过 API 与服务交互,而无需担心底层维护。这种部署模型非常适合寻求易用性和快速集成(无需大量开销)的企业,并且允许快速扩展和访问最新功能及改进。
  • 云托管部署涉及使用云服务提供商 (CSP) 作为基础设施即服务 (IaaS) 或平台即服务 (PaaS) 来管理推理服务。在此模型中,用户负责管理服务,包括配置、扩展和维护,但受益于 CSP 的强大基础设施和工具。该模型具备灵活性和控制性,适合有特定要求和技术专长的企业。此外,它还能与其他云原生服务和工具无缝集成。
  • 自托管部署要求在自主管理的私有数据中心或主机托管服务中管理推理服务。该模型提供了最高级别的控制和自定义,使企业能够根据具体的需求量身定制基础设施和服务。然而,其也需要大量的资源进行维护、更新和扩展。因为基于云的解决方案无法满足对安全性、合规性或性能有严格要求的企业,他们通常会选择此模型。
  • 边缘托管部署涉及在边缘运行人工智能或机器学习 (ML) 服务,例如在零售亭、物联网设备或其他本地环境中。这种模型通过在靠近数据源的地方处理数据以减少延迟,非常适合实时应用和互联网连接有限或时断时续的情景。它需要强大的本地硬件和软件管理,但对于需要即时、本地化决策的用例而言,其具有显著的优势。边缘托管部署在零售、制造和医疗保健等行业尤为重要。

F5 可随时随地交付人工智能应用并确保其安全

您日常依赖的 F5 应用交付和安全功能,对于精心设计的人工智能工厂而言同样至关重要。F5 BIG-IP 本地流量管理器(Local Traffic Manager)与 F5 rSeriesVELOS 专用硬件搭配使用,可为人工智能培训提供高性能数据摄取。用于安全多云网络的F5 分布式云网络连接(Distributed Cloud Network Connect)可连接不同的数据位置,为 RAG 创建从专有数据到人工智能模型的安全通道。

F5 在人工智能领域的专业能力不止于此 - 了解 F5 如何随时随地交付人工智能应用并确保其安全