本文针对基于模型的学习代理(model-based learning agents)中世界模型(world model)的微调阶段面临的数据投毒攻击问题,提出了SWAAP(Stealthy World Model Manipulation via Data Poisoning),这是首个两阶段数据投毒框架。在第一阶段,SWAAP通过一阶双层优化(first-order bilevel optimization)并利用过渡梯度定理(transition-gradient theorem)识别出一个有害的目标世界模型,该模型在保持与干净模型动态相近的同时,诱导规划(planning)产生低回报行为。在第二阶段,SWAAP通过隐身约束梯度匹配(stealth-constrained gradient matching)实现该目标,仅修改有限比例的微调转变目标(transition targets),使得诱导训练梯度将受害者模型推向对抗目标,同时预测误差正则化器(prediction-error regularizer)鼓励投毒目标保持在世界模型自然近似误差的范围内。为了评估攻击的隐蔽性,作者在投毒管线的三个阶段评估了防御和可检测性:训练前检测投毒转变、微调期间的鲁棒训练、以及测试时监控产生的世界模型。在多种连续控制任务中,SWAAP导致显著的性能退化,同时保持投毒转变与干净数据接近,并逃过了所评估的非自适应残差/CUSUM/TRIM风格的防御。这些结果揭示了世界模型适应管道中的一个实际漏洞,并强调了需要保护世界模型训练数据和学到的动态的鲁棒方法。适合安全研究人员、AI系统防御者以及强化学习从业者阅读。
💡 推荐理由: 该研究揭示了基于模型强化学习中世界模型微调管道的训练时攻击面,攻击者可通过少量数据投毒操纵模型导致低回报行为,且现有防御难以检测,对部署安全关键型自主代理构成威胁。
🎯 建议动作: 研究跟进,评估内部基于模型强化学习系统的数据投毒风险,探索鲁棒微调与异常检测方法。