#poisoning-defense

共收录 1 条相关安全情报。

← 返回所有主题
推荐 3.5
Conf: 50%
👥 作者: Shixiong Jiang, Taozheng Zhu, Fanxin Kong

离线安全强化学习(Offline Safe RL)能够在没有在线交互的情况下学习策略,因此适用于机器人等安全关键系统。然而,其依赖静态数据集的特点使其容易遭受数据投毒攻击,攻击者注入恶意样本以破坏安全性并导致不安全策略行为。本文提出一种新的学习范式——安全反学习(Safe-RULE),作为防御框架,无需从头重新训练或访问原始训练环境即可消除投毒数据的影响。作者将反学习扩展至离线安全强化学习,在反学习过程中显式考虑任务性能和安全性约束。在多个安全强化学习基准任务上的实验表明,该方法能有效增强对数据投毒攻击的安全性能。核心贡献包括:定义了离线安全强化学习中的投毒防御问题;提出结合安全约束的反学习机制;实验验证了防御效果。适合关注AI安全、强化学习安全尤其是防御技术的研究人员阅读。

💡 推荐理由: 首次将反学习范式引入离线安全强化学习投毒防御,无需重新训练即可消除恶意数据影响,对提升机器人等安全关键系统的鲁棒性具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)