该论文提出了 RoboJailBench,一个针对具身 AI 系统中越狱攻击与防御的标准化基准。研究背景是现有评估依赖于临时数据集、有限指标,且只关注攻击成功率,忽略了安全与遵循良性指令能力之间的权衡。核心工作包括三个部分:首先,基于 ISO 标准、监管规则和已记录事件建立了安全分类法,归纳出18类具身 AI 安全违规后果;其次,设计了意图对比数据集流水线,通过生成成对的对抗性和良性目标来同时衡量安全性和效用;最后,提供了一个持续演进的代码仓库,包含标准化指标和统一流程,用于评估和集成新的攻击与防御。作者利用该基准构建了一个新的分类平衡数据集,并增强了五个现有数据集,集成了四种攻击和两种防御,对主流具身 VLM 进行了评估。RoboJailBench 是首个针对具身 AI 越狱攻击的标准化评估框架,支持未来研究。论文适合安全研究人员、机器人 AI 开发者以及关注 AI 安全基准的从业者阅读。
💡 推荐理由: 该基准填补了具身 AI 安全评估的空白,为蓝队提供标准化测试工具,帮助理解 VLM 驱动的机器人面临的实际越狱威胁,并平衡安全与功能性。
🎯 建议动作: 研究跟进