人工智能的普及速度超过以往任何技术。
最初只有几个大型模型和供应商,现在已经发展成为一个庞大的开源和商业人工智能模型生态系统,每个模型都有自己的优势和风险。 由于有数百万种模型可供选择,采用人工智能的企业需要透明的风险洞察,准确显示每种模型会给他们的环境带来哪些威胁。
在 F5 收购 CalypsoAI 后,我们很高兴推出综合 AI 安全指数 (CASI) 排行榜,为 AI 和 GRC 领导者深入分析最主流 AI 模型的风险构成。 CalypsoAI 成立于 2018 年,始终引领 AI 安全研究,建立了业内最大之一的 AI 漏洞库,并每月新增超过 10,000 条攻击提示,持续更新。 基于此,排行榜测试全面评估基础模型与 AI 系统的安全状况,重点关注最受欢迎及客户实际部署的模型。
我们开发这些工具,旨在满足您选择可投入生产模型的业务需求,助力 CISO 和应用开发人员将安全置于首位。 排行榜精准切入 AI 领域的核心,凝练出五个关键指标,解答复杂的模型安全问题:
CASI 是一项指标,旨在回答一个复杂的问题: “我的模型究竟有多安全?”。 CASI 分数越高,说明模型或应用越安全。 虽然很多针对模型的攻击或红队测试研究依赖攻击成功率(ASR),但这一指标往往忽略了各次攻击影响的差异。 传统的 ASR 把所有攻击一视同仁,这存在误导性。 举例来说,破解自行车锁的攻击,绝不应等同于攻破核弹发射密码的行为。 同样地,在人工智能领域,一个小型且不安全的模型可能会被简单地通过申请敏感信息轻易攻破,而较大模型则可能需要采用自主且协调的智能代理攻击者等复杂手段,才能被破坏其一致性。 CASI 就通过区分简单与复杂攻击,明确模型的防御断点(DBP)——即攻击者成功攻击所需付出的最小阻力路径和最低计算资源,从而精准反映这一细微差别。
标准的 AI 漏洞扫描为模型安全提供了基础视角,但只能初步揭示 AI 系统在真实攻击下的表现。
为填补这一空白,我们运用F5 AI Red Team,一项先进的红队技术,可调动众多自主AI代理,模拟一支持续、高效的智能威胁分析师团队。 这些代理不断探测、学习与调整,发起多步骤攻击,揭示静态测试常忽视的关键漏洞。
这一严格的测试流程产生了AWR 分数,这是衡量 AI 系统防御能力的量化指标,评分范围为 0 至 100。 AWR 分数越高,说明只有更复杂、持久且有针对性的攻击者才能突破该系统。 这一可作为基准的数值,基于三大关键类别的复杂攻击情景计算得出:
F5 Labs 团队对我们在九月测试中观察到的最新趋势进行了深入分析。 想全面了解不断增长的技术、漏洞和攻击手法,请每月关注我们的更新,随时掌握人工智能安全的最新动态。
AI 攻击面将持续演变,F5 致力于为您提供关键洞察,帮助您顺利调整 AI 安全策略。 任何新技术都会带来一定程度的风险,AI 也同样如此,风险不会为零。 实现全面 AI 安全的第一步,是明确风险所在。随着 AI 模型格局不断变化,CASI 排行榜将持续帮助您加深理解。
想了解更多洞见吗? 我们用来评估基础模型的同一智能红队方法,也能针对您的 AI 环境进行定制,通过F5 AI Red Team带来更深入的洞察。