#clean-label 主题 - Cyber Security Daily Radar

👥 作者: Dongdong Zhao, Can Li, Xiang Yao, Fan He, Qihang Ge, Baogang Song

本文提出了一种新颖的干净标签后门攻击框架，其核心特点是后门在训练后保持休眠状态，仅在用户请求删除（机器遗忘）特定训练样本后才被激活，从而有效规避训练后、部署前的行为审查。现有后门攻击通常在植入后立即生效，容易被安全检查发现；而针对休眠后门的研究虽能在遗忘后激活，但难以同时满足低激活前攻击成功率、强激活后攻击效果、干净标签约束以及现实遗忘请求等条件。为此，作者提出基于双生成器学习的统一框架，将后门植入建模为双层优化问题：一方面学习样本特定的触发器，建立持久的触发器-目标类别潜在关联；另一方面生成标签一致的伪装样本，提供可移除的抑制机制。当少量伪装样本被遗忘后，抑制被解除，后门被激活。在CIFAR-10和ImageNet-10数据集上的实验表明，该方法在多种机器遗忘算法下，相比代表性后门基线，能同时实现更低的激活前攻击成功率和更高的激活后攻击成功率，验证了通过协调持久潜在关联与可移除抑制来实现可靠休眠-激活转换的可行性。该研究揭示了机器遗忘作为防御机制可能被攻击者利用的潜在风险，对模型所有者和安全从业者具有警示意义。

💡 推荐理由: 该研究揭示机器遗忘机制可被攻击者利用，使后门在部署后按需激活，逃避现有安全审查。对依赖模型清洗和遗忘接口的防御体系构成新挑战，需关注模型供应链中的隐蔽风险。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Philemon Hailemariam, Birhanu Eshete

该论文针对机器学习模型面临的清洁标签后门攻击防御难题，提出了一种名为 PoisonSpot 的新型检测系统。清洁标签后门攻击通过污染训练数据嵌入隐藏行为，且无需修改标签，使得现有防御手段难以有效检测。PoisonSpot 的核心创新在于借鉴动态污点追踪思想，实现了细粒度的训练来源追踪：它能够监控单个训练样本在整个训练过程中对模型参数更新的影响，并基于影响谱线为每个可疑样本分配毒性分数，从而精确识别并剔除携带后门触发器的样本。在多个基准数据集和攻击场景（包括自适应攻击策略）下的实验评估表明，PoisonSpot 相比现有最先进的清洁标签后门防御方法具有显著优势：始终实现高真阳性率、低假阳性率，并有效减轻后门攻击。此外，该系统在重训练和微调等多种训练设置下均能高效运行，展现出良好的鲁棒性和可扩展性。论文详细描述了追踪机制、毒性评分算法以及防御流程，为机器学习安全领域提供了一种精准、可操作的防御方案。

💡 推荐理由: 清洁标签后门攻击因隐蔽性强而难以检测，PoisonSpot 通过细粒度训练来源追踪实现了高精度识别，对依赖第三方数据的模型安全具有重要防护价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#clean-label

Benign on Label, Malicious by Design: Clean-Label Dormant-to-Activated Backdoor via Machine Unlearning with Removable Camouflage

PoisonSpot: Precise Spotting of Clean-Label Backdoors via Fine-Grained Training Provenance Tracking.