推荐 8.5
Conf: 50%
随着视觉-语言模型(VLM)被越来越多地部署为具身助手的自主认知核心,评估其在物理环境中的隐私意识变得至关重要。与数字聊天机器人不同,这些智能体在家庭、医院等私密空间运行,能够观察并操作包含隐私敏感信息与物品的物理实体。然而,现有基准仍局限于单模态、基于文本的表达,无法捕捉真实世界的复杂性。为弥补这一空白,本文提出了 ImmersedPrivacy,一种交互式视听评估框架,基于 Unity 模拟器构建逼真的物理环境。ImmersedPrivacy 通过三个递进层级测试模型的物理隐私意识:第一层级评估在杂乱场景中识别敏感物品的能力;第二层级测试适应社会语境变化(如陌生人进入房间)的能力;第三层级考察解决显式命令与隐含隐私约束之间冲突的能力。作者对 12 个当前最先进的 VLM 进行了评估,发现了一致的缺陷。在杂乱场景中,所有模型的性能随场景复杂度增加而单调下降,表明存在感知缺陷。当社会情境改变时,没有模型的选择准确率超过 65%。在冲突命令下,表现最好的模型 gemini-3.1-pro 也仅在 51% 的案例中完美平衡了任务完成与隐私保护。这些发现揭示了当前 VLM 在物理世界中存在感知脆弱性,并且无法让隐私知识主导其情境化行为。代码和数据已开源。
💡 推荐理由: 该研究首次系统评估了 VLM 在物理世界中的隐私意识,揭示了当前模型在杂乱场景、社会情境变化及命令冲突下的严重缺陷,对部署具身 AI 在家庭、医疗等私密空间的安全风险具有重要警示意义。
🎯 建议动作: 研究跟进,建议安全团队关注 VLM 在物理环境中的隐私风险,将其纳入内部评估流程。
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)