当今大多数企业安全工具都基于一套非常具体的假设。 这并不坏,因为这些假设在过去二十年中经过反复验证。 其中关键假设是软件会按指令执行,用户可以被分析,且系统在已知条件下表现稳定。 当你保护 API、Web 服务器或密码管理不善的用户时,这确实管用。
但是当自主代理出现时,所有这些都将被打破。
行为者不会总是照着剧本来。 它们不会总是在固定路径上行动。 它们会推理、计划和调整,如果你不注意,可能会表现异常。 这意味着你传统的防御方案已经变得不再可靠。
幸运地是,安全研究人员开始正视这个现实。 一个重要的迹象体现在一篇论文中: “保障智能代理 AI 的安全: 针对大型语言模型代理的威胁建模。” 它不仅呈现了一些新的严峻场景,更提出了一个全新的操作框架,专为我们正在踏入的智能代理时代打造。
作者介绍了SHIELD,这是一种在现实环境中管理自主代理的分层方法。 它不仅是攻击向量的清单,更是一套治理蓝图。 SHIELD 包括:
虽然还处于初期阶段,但 SHIELD 的核心洞见至关重要:智能代理 AI 需要新的控制点、新的假设和新的思维模式。 我们或许最近提到过,比如在这份白皮书中。 现在,让我们简单概述一下这对安全负责人和工程师意味着什么。
1. 从静态威胁模型到动态行为监测
传统威胁模型假设攻击者会遵循已知路径,包括横向移动、权限提升和负载投递。 但攻击者不会被任何既定模式所限制。 他们会随机应变。
安全团队应开始监控新兴行为。 也就是说,要围绕代理的操作、思考过程及其偏离预设路径的时刻构建遥测体系。 语义。 可观测性。 无需多言。
2. 从边界防护到运行时策略执行
当 LLM 代理已经进入系统内部,开始调用工具、访问文件或自主发送 API 请求时,防火墙和网关级保护无法发挥作用。
安全必须更贴近运行时,实时执行任务范围权限、环境隔离和意图验证。 可以将其视为基于推断的策略:代理每次决定执行操作时都必须进行权限检查。 这意味着数据平面与控制平面融为一体,安全必须全程介入。
3. 从日志记录到捕获上下文
你无法保护你不了解的事物,而使用代理时,理解远不止于日志。 你需要记录并追踪提示链、工具调用元数据、内存快照和执行上下文。 上下文即新边界。
为什么代理在凌晨2点安排了五场会议并向供应商发了邮件? 除非你能回放它的决策流程,否则你无法知道原因。 这不是可观测性。 这是代理取证分析。
4. 从代码审查到行为测试
代理的逻辑不在于代码,而在于权重、提示、工具与上下文的综合作用。 因此,静态审查毫无价值。
我们需要的是沙盒行为质量保障:模拟极端情况、对抗性输入和权限范围。 让代理像训练中的初级工程师一样运行,而非像确定性的代码模块。
红队必须从“渗透系统”转变为“操控代理”,反复执行,并敏锐捕捉故障的连锁反应。
5. 从用户身份到代理身份和权限范围
当前的访问控制大多以用户为中心:您是谁,您具有什么身份? 这种方法无法应用于代理。 您需要为 AI 代理分配身份、权限范围和任务边界,同时设置自动过期(如 TTL)、与共享内存隔离,并保持持久的审计记录。
简而言之:零信任现在也适用于非人为角色。 每次他们调用工具或访问资源时,您都必须重新确认信任。
Agentic AI 不只是新鲜事,它代表了系统层面的变革。 当模型具备自主能力时,系统变得更加复杂,而旧有假设也可能成为阻碍。
SHIELD 成功之处不仅在于它列出的控制措施。 更在于它的理念,包含两个核心假设:
现在采纳这些做法的安全团队,将打造可持续扩展的安全防线。 而那些不采纳的呢? 他们得忙着清理那些“特工们好心帮忙”后留下的混乱。
所以,不,你现有的框架远远不够。 智能代理已经进场了。 现在该用真正理解它们的治理方式来应对了。