#gaussian-process

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Junfeng Guo Heng Huang

强化学习(RL)在现实世界中的应用日益广泛,但其安全性问题仍需更多关注。最新研究表明,RL智能体容易受到后门攻击的影响:当特定触发器被激活时,本应行为正常的智能体会执行恶意动作。现有的RL后门防御方法要么需要访问智能体的内部参数,要么仅在模型或轨迹级别运行,或者仅限于特定攻击类型。本文提出了一种名为PolicyGuard的新型防御机制,该机制在测试时、步骤级别进行后门检测。PolicyGuard利用高斯过程(GP)后验方差,并通过生成伪轨迹来计算每个时间步的不确定性,从而识别异常行为。此外,作者提供了理论依据来解释GP后验方差的有效性。在七个RL游戏环境中进行了大量实验,结果表明PolicyGuard在大多数情况下达到了最先进的检测性能:对于基于扰动的攻击,平均AUROC为0.856;对于对抗性智能体攻击,平均AUROC为0.859。本文的主要贡献包括:首次提出测试时、步骤级别的后门防御方法;利用GP后验方差实现细粒度不确定性量化;提供了理论支撑;以及通过广泛实验验证了方法的有效性。适合强化学习安全研究员、AI安全工程师以及对抗机器学习方向的研究者阅读。

💡 推荐理由: 强化学习后门攻击威胁严重,但现有防御存在短板。PolicyGuard首次实现测试时步骤级检测,无需修改训练过程或访问内部参数,为RL安全提供了实用且高效的防护方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)