博客 | 首席技术官办公室

代理介入时,您的安全模型却失效

Lori MacVittie 缩略图
洛里·麦克维蒂
发布时间:2025年9月3日

当今大多数企业安全工具都基于一套非常具体的假设。 这并不坏,因为这些假设在过去二十年中经过反复验证。 其中关键假设是软件会按指令执行,用户可以被分析,且系统在已知条件下表现稳定。 当你保护 API、Web 服务器或密码管理不善的用户时,这确实管用。

但是当自主代理出现时,所有这些都将被打破。

行为者不会总是照着剧本来。 它们不会总是在固定路径上行动。 它们会推理、计划和调整,如果你不注意,可能会表现异常。 这意味着你传统的防御方案已经变得不再可靠。

幸运地是,安全研究人员开始正视这个现实。 一个重要的迹象体现在一篇论文中: “保障智能代理 AI 的安全: 针对大型语言模型代理的威胁建模。” 它不仅呈现了一些新的严峻场景,更提出了一个全新的操作框架,专为我们正在踏入的智能代理时代打造。

SHIELD: 专为代理设计,而非针对 API 的框架

作者介绍了SHIELD,这是一种在现实环境中管理自主代理的分层方法。 它不仅是攻击向量的清单,更是一套治理蓝图。 SHIELD 包括:

  • 沙盒: 明确定义代理在采取行动之前可以接触什么(工具、文件、API)。 使用某种形式的严格访问控制。 这里的核心前提是合理的,并且目前已有许多努力来管理人工智能工具的使用。
  • 人机协同: 在执行不可逆操作前,设定检查点或升级流程。 这很常见,是大多数自动化流程的基本环节。
  • 接口限制: 我们对代理与系统交互实行严格的输入输出规则。 这就像是输入清洗与响应检测。 嗯。
  • 执行跟踪: 监控工具调用、内存状态变化及规划循环。 可观测性。 可观测性。 可观测性。
  • 日志记录: 记录推理过程和工具使用情况,而不仅限于结果。 这点虽为形成好记首字母缩写所需,但实际上配合前述跟踪,是全面可观察性策略的重要组成部分。
  • 确定性重放: 重建推理会话来审核某件事发生的原因而不仅仅是发生了什么。 我发现这很难让人相信,因为重新创造一个代理的“状态”——实际上是任何人工智能——几乎是不可能的。 但是,如果可以做到的话那就太酷了。

虽然还处于初期阶段,但 SHIELD 的核心洞见至关重要:智能代理 AI 需要新的控制点、新的假设和新的思维模式。 我们或许最近提到过,比如在这份白皮书中。 现在,让我们简单概述一下这对安全负责人和工程师意味着什么。

安全领域必须为自主型人工智能做出的五大转变

1. 从静态威胁模型到动态行为监测
传统威胁模型假设攻击者会遵循已知路径,包括横向移动、权限提升和负载投递。 但攻击者不会被任何既定模式所限制。 他们会随机应变。

安全团队应开始监控新兴行为。 也就是说,要围绕代理的操作、思考过程及其偏离预设路径的时刻构建遥测体系。 语义。 可观测性。 无需多言。

2. 从边界防护到运行时策略执行
当 LLM 代理已经进入系统内部,开始调用工具、访问文件或自主发送 API 请求时,防火墙和网关级保护无法发挥作用。

安全必须更贴近运行时,实时执行任务范围权限、环境隔离和意图验证。 可以将其视为基于推断的策略:代理每次决定执行操作时都必须进行权限检查这意味着数据平面与控制平面融为一体,安全必须全程介入。

3. 从日志记录到捕获上下文
你无法保护你不了解的事物,而使用代理时,理解远不止于日志。 你需要记录并追踪提示链、工具调用元数据、内存快照和执行上下文。 上下文即新边界

为什么代理在凌晨2点安排了五场会议并向供应商发了邮件? 除非你能回放它的决策流程,否则你无法知道原因。 这不是可观测性。 这是代理取证分析。

4. 从代码审查到行为测试
代理的逻辑不在于代码,而在于权重、提示、工具与上下文的综合作用。 因此,静态审查毫无价值。

我们需要的是沙盒行为质量保障:模拟极端情况、对抗性输入和权限范围。 让代理像训练中的初级工程师一样运行,而非像确定性的代码模块。

红队必须从“渗透系统”转变为“操控代理”,反复执行,并敏锐捕捉故障的连锁反应。

5. 从用户身份到代理身份和权限范围
当前的访问控制大多以用户为中心:您是谁,您具有什么身份? 这种方法无法应用于代理。 您需要为 AI 代理分配身份、权限范围和任务边界,同时设置自动过期(如 TTL)、与共享内存隔离,并保持持久的审计记录。

简而言之:零信任现在也适用于非人为角色。 每次他们调用工具或访问资源时,您都必须重新确认信任。

安全需要不断适应

Agentic AI 不只是新鲜事,它代表了系统层面的变革。 当模型具备自主能力时,系统变得更加复杂,而旧有假设也可能成为阻碍。

SHIELD 成功之处不仅在于它列出的控制措施。 更在于它的理念,包含两个核心假设:

  • 请假设代理会偏离预定流程,无论是出于本能还是受到干扰
  • 请将推理错误视为可能引发系统级连锁反应

现在采纳这些做法的安全团队,将打造可持续扩展的安全防线。 而那些不采纳的呢? 他们得忙着清理那些“特工们好心帮忙”后留下的混乱。

所以,不,你现有的框架远远不够。 智能代理已经进场了。 现在该用真正理解它们的治理方式来应对了。