博客

推出 CASI 排行榜

Lee Ennis 缩略图
李·恩尼斯
发布日期:2025年9月29日

人工智能的普及速度超过以往任何技术。 

最初只有几个大型模型和供应商,现在已经发展成为一个庞大的开源和商业人工智能模型生态系统,每个模型都有自己的优势和风险。 由于有数百万种模型可供选择,采用人工智能的企业需要透明的风险洞察,准确显示每种模型会给他们的环境带来哪些威胁。

在 F5 收购 CalypsoAI 后,我们很高兴推出综合 AI 安全指数 (CASI) 排行榜,为 AI 和 GRC 领导者深入分析最主流 AI 模型的风险构成。 CalypsoAI 成立于 2018 年,始终引领 AI 安全研究,建立了业内最大之一的 AI 漏洞库,并每月新增超过 10,000 条攻击提示,持续更新。 基于此,排行榜测试全面评估基础模型与 AI 系统的安全状况,重点关注最受欢迎及客户实际部署的模型。 

CASI 测试是如何开展的?

我们开发这些工具,旨在满足您选择可投入生产模型的业务需求,助力 CISO 和应用开发人员将安全置于首位。 排行榜精准切入 AI 领域的核心,凝练出五个关键指标,解答复杂的模型安全问题:

  1. CASI 分数 -衡量模型整体安全性的一项综合指标(方法见下文)。
  2. AWR 分数 - 评估模型对整个 AI 系统的潜在威胁程度。 我们派出训练有素的自主攻击代理团队,主动攻击系统、提取信息并破坏基础设施。 这些代理能够从向量存储中提取敏感个人信息,洞察系统架构,并依照明确指令测试模型的对齐度。
  3. 性能 -我们根据 MMLU、GPQA、MATH 和 HumanEval 等主流基准测试了模型的平均表现。
  4. 风险与性能比 (RTP) -帮助您权衡模型的安全性与性能。
  5. 安全成本 (CoS) - 当前推理成本与模型的 CASI 相比,衡量安全措施带来的财务影响。

CASI 排行榜

F5 Labs 综合 AI 安全指数(CASI)排行榜。

CASI 分数是什么,它为何重要?

CASI 是一项指标,旨在回答一个复杂的问题: “我的模型究竟有多安全?”。 CASI 分数越高,说明模型或应用越安全。 虽然很多针对模型的攻击或红队测试研究依赖攻击成功率(ASR),但这一指标往往忽略了各次攻击影响的差异。 传统的 ASR 把所有攻击一视同仁,这存在误导性。 举例来说,破解自行车锁的攻击,绝不应等同于攻破核弹发射密码的行为。 同样地,在人工智能领域,一个小型且不安全的模型可能会被简单地通过申请敏感信息轻易攻破,而较大模型则可能需要采用自主且协调的智能代理攻击者等复杂手段,才能被破坏其一致性。 CASI 就通过区分简单与复杂攻击,明确模型的防御断点(DBP)——即攻击者成功攻击所需付出的最小阻力路径和最低计算资源,从而精准反映这一细微差别。

AWR 评分是什么?

标准的 AI 漏洞扫描为模型安全提供了基础视角,但只能初步揭示 AI 系统在真实攻击下的表现。 

为填补这一空白,我们运用F5 AI Red Team,一项先进的红队技术,可调动众多自主AI代理,模拟一支持续、高效的智能威胁分析师团队。 这些代理不断探测、学习与调整,发起多步骤攻击,揭示静态测试常忽视的关键漏洞。

这一严格的测试流程产生了AWR 分数,这是衡量 AI 系统防御能力的量化指标,评分范围为 0 至 100。 AWR 分数越高,说明只有更复杂、持久且有针对性的攻击者才能突破该系统。 这一可作为基准的数值,基于三大关键类别的复杂攻击情景计算得出:

  • 所需复杂度 –攻击者需要具备怎样的智慧水平才能突破人工智能防护? 系统能否抵御高级定制攻击,还是会被简单常见的攻击击败?
  • 防御持久力——您的人工智能系统能在持续且适应性的攻击下保持多长时间的安全? 它会在几次交互后崩溃,还是能稳固抵御不断演进的攻击?
  • 反情报——人工智能是否无意中助长了攻击者? 我们通过此项指标判断失败的攻击是否泄露了关键情报,比如透露了过滤机制的细节,从而无意中为未来攻击指引了路径。

目前有哪些最新趋势?

F5 Labs 团队对我们在九月测试中观察到的最新趋势进行了深入分析。 想全面了解不断增长的技术、漏洞和攻击手法,请每月关注我们的更新,随时掌握人工智能安全的最新动态。

紧跟 AI 模型的发展趋势

AI 攻击面将持续演变,F5 致力于为您提供关键洞察,帮助您顺利调整 AI 安全策略。 任何新技术都会带来一定程度的风险,AI 也同样如此,风险不会为零。 实现全面 AI 安全的第一步,是明确风险所在。随着 AI 模型格局不断变化,CASI 排行榜将持续帮助您加深理解。

想了解更多洞见吗? 我们用来评估基础模型的同一智能红队方法,也能针对您的 AI 环境进行定制,通过F5 AI Red Team带来更深入的洞察。