随着人工智能和机器学习能力越来越被视为推动各种规模公司创新和效率的关键,组织必须确定如何最好地为其应用开发人员提供对这些功能的访问权限。 在许多情况下,将使用 AI 推理服务,即“调用 AI 模型根据给定的输入产生输出的服务”(例如预测分类或生成文本),最常见的是响应来自其他应用代码的 API 调用。
这些推理服务可以通过多种方式构建和使用(即使在单个组织内)。 这些服务可以完全在内部开发,也可以作为 SaaS 使用,利用开源项目,并使用开放或商业模型。 它们可能作为支持更广泛的数据科学和模型创建工作的功能齐全的“机器学习平台”的一部分出现,或者它们可能只为您提供调用模型的 API 端点。 它们可能在私有数据中心、公共云、主机托管设施或这些的混合环境中运行。 较大的组织可能会依赖多个单一选项进行 AI 推理(尤其是在该领域成熟度较低的组织中)。 虽然没有一种适合所有人的万能方法,但一些常见的模式正在浮现。
我们将研究三种广泛的 AI 推理消费模式,以及它们的各种优势和劣势:
在评估以下操作模式之间的权衡时,需要牢记几个关键因素:
组织可以选择使用专用 SaaS 提供商的服务,该提供商专注于托管用于推理的 AI 模型(例如 OpenAI 或 Cohere)。 在这种情况下,组织基础设施(私有数据中心、主机托管或公共云)上运行的工作负载利用 SaaS 提供商发布的 API。 采用这种模式,运营托管模型所需的基础设施的负担完全落在 SaaS 提供商身上,并且启动和运行所需的时间可能非常短。 然而,这些好处是以控制为代价的,这种模式是我们将要介绍的模式中“灵活性”最差的。 同样,在这种模式下,对敏感数据的控制通常最低,因为通常使用公共互联网连接服务,而外部 SaaS 供应商不太可能解决严格的监管合规问题。
在这种模式下,组织利用公共云提供商提供的托管服务(例如 Azure OpenAI、Google Vertex、AWS Bedrock)。 与第一种模式一样,部署、扩展和维护 AI 模型的运营负担落在云提供商而不是消费组织身上。 这种模式与上述 SaaS 模式的主要区别在于,在这种情况下,推理 API 端点通常可以通过私有网络访问,并且 AI 消费者工作负载可以与 AI 模型服务共置(例如,同一区域、地区)。 因此,数据通常不会通过公共互联网,延迟可能会更低,并且连接这些服务的机制与其他云提供商管理服务的机制类似(即服务帐户、访问策略、网络 ACL)。 即使在工作负载和 AI 推理服务托管在不同的云中的情况下,利用多云网络的组织也可能能够实现其中一些相同的好处。
对于自我管理模型,我们首先讨论 AI 模型推理作为集中式“共享服务”运行的情况,然后研究不存在集中式服务的情况,而运营问题则留给各个应用团队处理。
在自管理模式的“共享服务”变体中,组织可能有专门的团队负责维护推理基础设施、在其上运行的模型、用于连接到它的 API 以及推理服务生命周期的所有操作方面。 与其他模式一样,AI应用工作负载将通过API调用使用推理服务。 模型服务基础设施可能在私有数据中心、公共云或主机托管设施中运行。 负责运营推理服务的团队可以利用自托管机器学习平台(例如 Anyscale Ray 或 MLFlow)。 或者,他们可能依赖更为狭隘的推理服务工具,如 Hugging Face 的文本生成推理服务器或内部开发的软件。 通过自我管理推理,组织只能使用自己训练的模型或可在本地运行的模型(因此,面向 SaaS 的服务的专有模型可能不是一种选择)。
没有中央团队负责运行应用使用的 AI 推理服务的组织是自我管理模式的另一种变体。 在此版本中,各个应用团队可能会在为应用工作负载分配给他们的相同基础架构上运行他们的模型。 他们可以选择通过 API 访问这些模型,或者以“离线”方式直接使用它们。 通过这种模式,开发人员可能能够在较小规模上实现与“共享服务”自我管理模型相同的一些好处。
从本质上讲,AI应用与其他现代应用程序非常相似。它们由面向用户的组件和后端组件混合构建而成,通常依赖于外部数据存储,大量使用 API 调用等。 这些应用继承了所有现代应用程序共有的安全挑战,并且需要以相同的方式应用相同的保护(例如,AuthNZ、DDoS 保护、WAF、安全开发实践等)。 然而,人工智能应用程序,尤其是那些利用生成式人工智能的应用程序,也面临一些可能不适用于其他应用的独特问题(例如,参见OWASP Top 10 For LLMs )。 这些模型的普遍不可预测性可能会导致新的问题,特别是在模型被赋予重要权力的用例中。
幸运的是,由于上述模式严重依赖 API 驱动的与 AI 模型推理的交互,许多组织已经准备好实施这些新的安全措施。 例如,提供传统速率限制、身份验证、授权和流量管理功能的 API 网关可能会扩展为支持基于令牌的速率限制,以帮助控制成本(在应用程序级别出站到 SaaS / 提供商托管服务或入站 RBAC 授权作为自管理推理服务前的保护)。 同样,当前执行传统 Webapplication防火墙 (WAF) 服务(例如检查 SQL 注入或 XSS)的基础设施可能是添加针对提示注入和类似攻击的保护的合理位置。 大多数现代可观察性实践直接适用于 API 驱动的 AI 推理特定用例,团队应该能够充分利用该领域的现有工具和实践。
虽然围绕人工智能应用和推理服务的讨论无疑是新的,但部署和保护它们的基本原则已经存在很长时间了。 在确定如何最好地利用人工智能能力时,组织需要权衡利弊,就像使用任何其他技术时一样;基于其特定的用例、可用资源和长期目标。 同样,尽管人工智能(尤其是生成式人工智能)用例确实带来了一些新的安全挑战,但它们与其他现代应用共享的需求以及对 API 驱动模型交互的严重依赖为使用和扩展现有模式、实践和工具提供了绝佳的机会。 无论是自托管还是托管服务,确保开发人员能够访问满足您特定业务需求的安全、可扩展、高性能的解决方案,对于最大化您的 AI 投资的价值和影响至关重要。