#embodied-ai

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Doguhuan Yeke, Yanming Zhou, Leo Y. Lin, Hongyu Cai, Antonio Bianchi, Z. Berkay Celik

该论文提出了 RoboJailBench,一个针对具身 AI 系统中越狱攻击与防御的标准化基准。研究背景是现有评估依赖于临时数据集、有限指标,且只关注攻击成功率,忽略了安全与遵循良性指令能力之间的权衡。核心工作包括三个部分:首先,基于 ISO 标准、监管规则和已记录事件建立了安全分类法,归纳出18类具身 AI 安全违规后果;其次,设计了意图对比数据集流水线,通过生成成对的对抗性和良性目标来同时衡量安全性和效用;最后,提供了一个持续演进的代码仓库,包含标准化指标和统一流程,用于评估和集成新的攻击与防御。作者利用该基准构建了一个新的分类平衡数据集,并增强了五个现有数据集,集成了四种攻击和两种防御,对主流具身 VLM 进行了评估。RoboJailBench 是首个针对具身 AI 越狱攻击的标准化评估框架,支持未来研究。论文适合安全研究人员、机器人 AI 开发者以及关注 AI 安全基准的从业者阅读。

💡 推荐理由: 该基准填补了具身 AI 安全评估的空白,为蓝队提供标准化测试工具,帮助理解 VLM 驱动的机器人面临的实际越狱威胁,并平衡安全与功能性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Junran Wang, Xinjie Shen, Zehao Jin, Pan Li

随着视觉-语言模型(VLM)被越来越多地部署为具身助手的自主认知核心,评估其在物理环境中的隐私意识变得至关重要。与数字聊天机器人不同,这些智能体在家庭、医院等私密空间运行,能够观察并操作包含隐私敏感信息与物品的物理实体。然而,现有基准仍局限于单模态、基于文本的表达,无法捕捉真实世界的复杂性。为弥补这一空白,本文提出了 ImmersedPrivacy,一种交互式视听评估框架,基于 Unity 模拟器构建逼真的物理环境。ImmersedPrivacy 通过三个递进层级测试模型的物理隐私意识:第一层级评估在杂乱场景中识别敏感物品的能力;第二层级测试适应社会语境变化(如陌生人进入房间)的能力;第三层级考察解决显式命令与隐含隐私约束之间冲突的能力。作者对 12 个当前最先进的 VLM 进行了评估,发现了一致的缺陷。在杂乱场景中,所有模型的性能随场景复杂度增加而单调下降,表明存在感知缺陷。当社会情境改变时,没有模型的选择准确率超过 65%。在冲突命令下,表现最好的模型 gemini-3.1-pro 也仅在 51% 的案例中完美平衡了任务完成与隐私保护。这些发现揭示了当前 VLM 在物理世界中存在感知脆弱性,并且无法让隐私知识主导其情境化行为。代码和数据已开源。

💡 推荐理由: 该研究首次系统评估了 VLM 在物理世界中的隐私意识,揭示了当前模型在杂乱场景、社会情境变化及命令冲突下的严重缺陷,对部署具身 AI 在家庭、医疗等私密空间的安全风险具有重要警示意义。

🎯 建议动作: 研究跟进,建议安全团队关注 VLM 在物理环境中的隐私风险,将其纳入内部评估流程。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)