探索安全风险和优化挑战,为运行基于生成式人工智能的应用准备一种平衡的方法。
生成式人工智能 (GenAI) 可以通过学习现有数据中的模式和示例,自主生成新的内容,包括文本、图像或音频。它利用深度学习模型生成多样化和与上下文相关的输出内容,模仿人类的创造力和解决问题的能力。
个人和组织将生成式人工智能用于各种用途和应用领域,包括内容创作、自然语言处理和数据合成。在内容创作方面,它可以帮助生成从诗歌、学术论文、营销材料到图像、视频、音乐和计算机代码等各种内容;在自然语言处理方面,生成式人工智能可增强聊天机器人和语言翻译的能力,并能够合成大量数据,从而激发产品设计、开发和原型设计的创造力;在组织内部部署生成式人工智能应用可以支持人类员工做出更好、更明智的决策,并提高运营效率,从而提高盈利能力和业务增长。
然而,生成式人工智能也带来了大量安全和道德方面的顾虑,包括潜在的偏见、更强的网络攻击和隐私风险。例如,生成式人工智能可以使用通过从互联网上系统地抓取的内容(包括在线书籍、帖子、网站和文章)来训练的大语言模型 (LLM)。生成式模型从训练数据中学习,如果使用的数据有偏见,模型可能会在其输出中延续甚至放大现有的偏见。此外,生成式人工智能可能会无意中生成有误导性或虚假的信息(称为“幻觉”),导致传播错误信息。不法行为者也可以利用生成式人工智能来传播和调整出可能导致社会动荡的宣传内容。如今,不法行为者通常利用生成式人工智能来创建深度伪造内容,这些内容很逼真但是经过篡改,可能具有误导性或恶意。深度伪造可用于身份盗窃、社会工程攻击或网络钓鱼攻击、虚假信息传播,或用于创建对个人和社会构成威胁的欺骗性内容。暗网市场现在提供 FraudGPT 人工智能工具,该工具可用于制作鱼叉式网络钓鱼电子邮件,创建无法检测的恶意软件,生成网络钓鱼攻击网页,识别易受攻击的网站,甚至提供黑客技术教程。
用于训练 LLM 的内容可能在未经同意的情况下被访问和用于模型训练,这些内容还可能包含个人信息和敏感信息以及受版权保护的或专有内容。由于这些私人信息都属于人工智能在生成内容时抓取的信息,因此输出内容很可能无意中泄露敏感数据或私人信息。
生成式人工智能供应商可能无法让个人或组织确认其个人或专有信息是否已被存储或用于训练,或根据欧盟《通用数据保护条例》(GPDR) 等政府法规的“被遗忘权”或“删除权”指令要求删除这些信息。LLM 训练还经常涉及汇总和利用来自不同地区或国家的数据。这可能会导致违反数据主权法规的情况。
生成式人工智能在各组织和行业中有多种用途。将生成式人工智能明智地纳入适当的工作流程可帮助企业获得竞争优势。这些应用领域包括:
生成式人工智能安全是一整套实践和措施,旨在解决与基于生成式人工智能的应用的开发、部署和使用相关的潜在安全风险和挑战。随着这些技术变得越来越普遍和复杂,与安全相关的问题也变得越来越重要,特别是在人工智能工作负载已成为网络犯罪分子的主要攻击面的情况下。要深入了解部署和管理生成式人工智能应用所涉及的安全风险,请查看《OWASP 大语言模型应用程序十大风险》,该文档旨在提高对应用漏洞的认识,推荐修复策略,并寻求改善 LLM 应用的安全态势。
虽然生成式人工智能看起来非常强大,甚至近乎神奇,但它利用一些与传统工作负载相同的基础设施、接口和软件组件,因此也存在相同的风险,例如注入攻击和绕过薄弱身份验证和授权控制的攻击。复杂的生成式人工智能模型的有效运行需要可靠、高性能和安全的基础设施。
基础设施攻击还包括拒绝服务 (DoS),即攻击者使 CPU、内存或存储等硬件资源不堪重负,从而破坏生成式人工智能工作负载的执行。这些资源耗尽式攻击会导致性能下降或系统不稳定,影响人工智能系统的可用性和可靠性,并损害模型学习和响应用户提示词的能力。
未授权访问人工智能系统基础设施也是生成式人工智能工作流程面临的一个重大威胁,可能会影响系统的保密性和完整性。系统基础设施遭到入侵可能会导致数据盗窃、服务中断或恶意代码插入等恶意活动。这不仅会危及人工智能模型和数据的安全,还可能导致生成和传播不准确或有害输出。
任何生成式人工智能应用的起点都是机器学习模型用来识别所需模式、进行预测和执行任务的训练数据。要使 LLM 具备强大的能力,其训练数据必须涵盖广泛而多样的领域、种类和来源。然而,模型训练过程(无论是采用现成的预训练模型,还是在定制数据集上训练的定制模型)都很容易受到操纵和攻击。
对抗攻击是指不法行为者为误导或损害生成式人工智能模型的性能而故意操纵输入数据,OWASP 将这一过程称为训练数据中毒。这种攻击还包括通过操纵数据来引入可能损害模型安全性、有效性或道德行为的漏洞、后门或偏见。这些漏洞还会引入攻击媒介,不法行为者可利用这些媒介未授权访问敏感信息。遭入侵的模型供应链可能导致出现有偏见或不可靠的输出、泄露隐私和执行未经授权的代码。由于生成式人工智能应用采用了庞大的插件生态系统,因此这一点尤其值得关注。
生成式人工智能应用采用基于训练数据集、神经网络和深度学习架构生成输出内容的 LLM 来生成对用户提示词的回复。人工智能模型是识别现有数据中的模式、结构和关系的基础,并根据对这些数据的理解生成新的输出。
人工智能模型容易受到各种攻击,包括提示词注入和其他输入威胁。这些威胁通过输入处心积虑制作的提示词来操纵 LLM,使模型忽略先前的指令或执行非预期操作。提示词注入是人工智能模型生成错误信息和虚假内容的最常见原因之一。生成式人工智能应用还容易受到 Server-Side Request Forgery (SSRF) 和远程代码执行 (RCE) 等漏洞的攻击,前者允许攻击者执行非预期请求或访问受限资源,后者可使应用在底层系统上执行恶意代码或其他操作。
保护生成式人工智能系统需要采用多层次的安全方法。这应涉及强大的身份验证和授权协议,包括严格的访问控制,以确保只有经授权的人员才能访问系统的关键组件。此外还需实施积极主动的漏洞管理,包括定期更新软件和持续监控,以便及早发现和防止入侵尝试。为抵御 DoS 攻击,应在系统中建立冗余,包括使用备份服务器和故障保护协议,以确保处理持续可用。LLM 也可能受到拒绝服务的影响,因为用户提示词会生成词元 (Token),而 LLM 有固定的上下文窗口,这些都可能成为耗尽系统资源的目标。
企业应实施严格的审核流程来验证训练数据的供应链,并只选择来自可信来源的预训练模型。训练数据中的劣质数据和偏见会阻碍模型学习准确表述和产生可靠结果的能力,因此为获得有效的生成式人工智能,必须在将数据输入生成式模型之前预处理数据。微调模型对于许多受监管行业也至关重要。数据清理、归一化和增强以及偏见检测和缓解等技术有助于防止出现错误和数据中毒。
实施强大的访问控制、加密方法和安全部署实践(包括网络隔离和适当的防火墙配置),保护生成式人工智能模型远离潜在的安全威胁。为防止提示词注入,应采用提示词清理、输入验证和提示词过滤等技术,确保模型不会被恶意制作的输入操纵。通过采用安全编码实践、进行彻底的代码审查和利用代码沙盒化等运行时防御措施,可以降低未经授权的代码执行风险。提示词注入是生成式人工智能应用最严重、最复杂的风险之一。
由于生成式人工智能处理可能消耗大量资源,因此优化生成式人工智能模型以提高性能和效率,是使模型更快、更可扩展、更节能的重要一步。
多云环境能够在分布式环境中连接人工智能工作负载和生态系统插件,因此已成为人工智能驱动型应用的基础。多云网络 (MCN) 可根据生成式人工智能工作负载的计算需求[包括图形处理单元 (GPU) 等硬件加速器]灵活地动态纵向扩大或缩小资源规模,并将不同云提供商的资源整合到数据处理中,从而优化性能并尽可能减少延迟。在多个云区域部署生成式人工智能模型可将处理按地理分布、减少延迟并缩短响应时间,这对于分布式实时或交互式人工智能应用尤为重要。边缘人工智能正在成为改善用户体验的实用方法。生成式人工智能模型的区域分布还可使企业在存储和处理数据时符合数据主权要求。
容器编排平台 Kubernetes 是运行生成式人工智能工作负载的事实标准,它提供在容器中运行和扩展人工智能模型的基础设施,以确保高可用性和高效的资源利用率。Kubernetes 作为编排器可以管理人工智能应用中各种组件的部署和监控,并确保人工智能模型、数据处理管道和其他服务能够得到有效管理和扩展。由于 Kubernetes 的实现方式多种多样,而且需要统一预配工作负载并安全地引导流量和分配推理,因此 MCN 和入口控制器至关重要。
API 可以连接起人工智能应用的各个部分,使这些部分交换数据和指令,并让不同的组件和服务能够相互通信。例如,生成式人工智能插件生态系统就是通过 API 调用连接起来的。Kubernetes 入口解决方案提供了内置的负载均衡、速率限制和访问控制功能,可在多个 Pod 之间安全地分配流量,从而提高人工智能工作负载的整体处理性能。
在生成式人工智能优化中,平衡输出速度和质量往往需要权衡利弊。实现高质量输出通常需要更复杂和资源更密集的模型和计算,而优化性能可能需要简化模型,这可能会影响生成内容的质量。更复杂的模型可能还需要更长的训练时间,并导致推理速度减慢,从而影响训练过程的速度和实时应用的性能。对于必须适应动态环境的生成式人工智能模型来说,这尤其是一个问题,因为动态环境可能需要持续优化并为保持质量和性能之间的平衡带来挑战。除了 GPU 外,一般的中央处理器 (CPU) 和数据处理单元 (DPU) 也可用于处理任务,这凸显了智能流量管理和资源池的重要性。
优化生成式人工智能模型需要均衡地考虑多种因素并将其结合起来。
模型剪枝涉及识别和删除模型中的冗余参数或不太重要的参数,以减小模型的大小和降低计算要求,目的是创建一个既能保持性能又变得更紧凑的模型。量化通过以较低的位精度表示数值(例如将浮点数转换为较低精度的定点数或整数)来降低生成式人工智能模型的内存要求和计算复杂性。这可以降低内存要求,提高部署和存储模型的效率。
迁移学习是一种机器学习技术,可以让针对一项任务训练的模型用于执行另一项相关任务,从而大大减少训练所需的时间和计算资源,尤其是对于深度和复杂模型而言。迁移学习有助于知识的有效再利用,从而能够在无需大量计算资源的情况下,针对特定应用优化生成式人工智能模型。
在多个处理器、设备或云上分配模型训练和推理,利用并行处理能力,可以优化模型训练和用户体验。此外,通过定制模型架构和训练过程来利用硬件(例如,模型将运行的特定 CPU 或 GPU)的单个能力,可以优化训练和推理过程,从而提高性能,特别是在推理可以在靠近用户的地方执行时。
生成式人工智能有可能带来重大的竞争优势,但企业要想充分利用其优势而避免风险,就必须采取必要的措施,在多样化的分布式环境中优化和保护人工智能工作负载。这不仅需要提高人工智能工作负载的效率,还需要管理复杂的 Kubernetes 生态系统,无缝安全地集成 API 并有效管理多云网络。
F5 可优化现代人工智能工作负载的性能和安全性,确保在整个分布式应用环境(包括数据中心、公共云、私有云、多云、原生 Kubernetes 和边缘)中对人工智能生成模型和数据进行一致的分配和保护。F5 提供统一的底层数据架构,支持大规模训练、完善、部署和管理生成式人工智能模型,确保无缝的用户体验,并支持人工智能驱动型应用实时作出决策。
F5 提供一整套集成的安全、交付和性能优化解决方案,可降低生成式人工智能的复杂性,同时提供可预测的规模和性能,可让您在单一平台集中查看和管理。
通过优化效率、降低延迟和缩短响应时间,F5 技术可帮助企业安全可靠地获享生成式人工智能的优势,同时确保无缝的用户体验,并支持在任何地方部署人工智能工作负载,十分灵活。