#backdoor-defense

共收录 5 条相关安全情报。

← 返回所有主题
👥 作者: Mengting Pan, Fan Li, Chen Chen, Xiaoyang Wang

图神经网络(GNN)在关系学习中取得了显著成功,但其对图后门攻击(GBA)的脆弱性,阻碍了其在高风险应用中的广泛采用。现有的图后门防御(GBD)方法主要针对基于子图的GBA,假设被投毒的目标节点明确连接到子图触发器。然而,实验结果表明,这些以结构为中心的方法无法防御新兴的基于特征的GBA,后者保持了图拓扑结构。因此,本文研究了一个新的通用图后门防御问题。首先,从基于特征的同质性角度出发,研究了两种攻击类型的共同影响,该角度描述了节点与其邻居之间的局部特征一致性。深入的理论和实证分析表明,无论触发器机制如何,由GBA引起的后门节点表现出比干净节点更低的基于特征的同质性,表明局部特征相似性存在差异。受此启发,作者提出利用节点级局部特征一致性(通过邻居感知重建损失建模)来区分后门节点与干净节点。然后,开发了一种鲁棒训练策略,以消除触发器影响并减少检测不确定性引入的噪声。大量实验表明,该框架在基于子图和基于特征的攻击下,显著降低了攻击成功率,并保持了有竞争力的干净准确率。

💡 推荐理由: 本文首次系统研究了基于特征的图后门攻击,并提出统一防御框架,填补了现有结构中心防御的空白,对提升GNN在安全敏感场景的可靠性具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hao Yu 0017, Chuan Ma 0001, Xinhang Wan, Jun Wang 0118, Tao Xiang 0001, Meng Shen 0001, Xinwang Liu 0002

图神经网络(GNN)容易受到后门攻击,攻击者通过在原始图中插入触发器使模型输出恶意指定的预测。针对GNN的后门攻击通常聚焦于节点分类任务,可分为脏标签攻击和干净标签攻击两类。现有防御方法往往依赖从其他领域(如图像)借用的强假设,例如在中毒样本上损失快速下降,但面对复杂触发器时效果不佳,且无法同时防御脏标签和干净标签攻击。本文提出DShield,一种基于差异学习机制的综合防御框架。首先,研究发现攻击过程中存在两种关键现象:语义漂移(脏标签攻击改变中毒节点的语义信息)和属性过度强调(干净标签攻击夸大特定属性迫使模型输出恶意预测)。DShield利用自监督学习框架构建不依赖于被操纵标签信息的模型,然后联合使用自监督模型和可能被后门的模型分析语义信息和属性重要性的差异,从而有效过滤中毒节点。最后,DShield在保留的干净节点上训练正常模型,最大程度减少中毒节点的影响。在7个数据集、2个受害模型和21种后门攻击下,与6种最先进防御方法相比,DShield显著降低了攻击成功率。例如在Cora数据集上,DShield将攻击成功率从第二名防御Prune的54.47%降至1.33%,同时在正常节点上保持82.15%的性能。该工作为GNN后门防御提供了新思路,适合研究GNN安全的研究人员阅读。

💡 推荐理由: 图神经网络在社交网络、推荐系统等领域广泛应用,后门攻击威胁严重。现有防御无法同时应对脏标签和干净标签攻击,本文DShield通过揭示语义漂移和属性过度强调现象,提出通用防御框架,对保护GNN应用安全具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Fatima Z. Abacha, Sin G. Teo, Yuanxiang Wu, Lucas C. Cordeiro, Mustafa A. Mustafa

联邦学习(FL)极易受到后门攻击的影响,恶意客户端会向全局模型中注入特定行为。现有的防御方法在真实世界的非独立同分布(non-IID)数据下存在较高的误报率,会错误地将良性客户端标记为恶意,即使正确识别了对手也会导致模型精度下降。本文提出了一种新颖的后门防御方法FedSurrogate,它通过结合双向梯度对齐过滤与层自适应异常检测来解决这一局限性。FedSurrogate通过方向散度分析识别安全关键层,并在这些层上进行选择性聚类,将检测信号集中到低维子空间中。双向软过滤阶段对受信任的客户端进行筛选以去除残留污染,同时从可疑客户端中救回误报,显著减少了异构条件下的误分类。FedSurcore不直接移除确认的恶意更新,而是用来自结构相似的良性客户端的降尺度替代更新来替换它们,从而在保持梯度多样性的同时中和对抗性影响。大量实验表明,FedSurrogate在所有数据集和攻击类型下将误报率保持在10%以下(最接近的可比较基线为31-32%),同时在具有挑战性的non-IID设置下实现了更高的主任务准确率,并将攻击成功率保持在2.1%以下。

💡 推荐理由: 联邦学习后门防御中误报率过高导致模型精度下降是实际部署的重大障碍,FedSurrogate通过创新方法显著降低了误报率,为安全联邦学习提供了实用方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Kealan Dunnett, Reza Arablouei, Dimity Miller, Volkan Dedeoglu, Raja Jurdak

本文研究目标检测模型中的后门攻击防御问题。后门攻击会向深度模型中植入恶意行为,同时保持其在干净数据上的性能,对安全关键的视觉系统构成严重威胁。虽然图像分类领域的后门防御已有广泛研究,但目标检测的防御方法相对不成熟。对抗微调是分类任务中常用的后门缓解方法,但直接迁移到目标检测面临挑战:分类导向的对抗生成与检测攻击空间不匹配(攻击可能导致目标误分类或消失),且标准检测损失会在众多预测中稀释修复信号。本文提出了一种检测感知的对抗微调框架,在防御者仅能访问受损检测器和少量干净数据集、且未知攻击目标的情况下缓解目标检测后门。首先,为了在不需攻击目标知识的情况下生成对抗样本,引入了软分支最小化(soft-branch minimisation),使用软门控组合针对误分类和消失攻击的目标,并结合检测感知的分类损失最大化。其次,针对定向修复,提出了一种对目标匹配预测应用的双目标微调损失,将防御更新集中在与后门行为最相关的预测上。在基于CNN和Transformer的检测器上的实验表明,与分类导向的基线方法相比,该方法在更有效降低攻击成功率的同时保持真实检测性能,并维持了有竞争力的干净检测性能。

💡 推荐理由: 首次系统性地将对抗微调后门防御从分类扩展到目标检测,填补了该领域防御方法的空白,对提升自动驾驶、安防等安全关键视觉系统的鲁棒性具有直接价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mengyuan Sun, Yu Li 0006, Yunjie Ge, Yuchen Liu, Bo Du, Qian Wang 0002

本文提出了一种名为InverTune的多模态对比学习后门防御方法。多模态对比学习(如CLIP)易受后门攻击,攻击者可通过在训练数据中注入触发模式,使模型在测试时对带有触发器的样本产生恶意预测。现有防御方法通常假设攻击者仅篡改单模态或依赖干净数据,难以应对实际攻击。InverTune通过后门-对抗相关性分析(Backdoor-Adversarial Correlation Analysis)来检测并抵御后门。具体而言,该方法利用后门触发器与对抗性扰动之间的统计相关性,设计了一种新的训练范式,使模型在对比学习过程中自动抑制后门特征。实验在多个多模态数据集(如Flickr30K、MSCOCO)上验证了有效性,与现有防御相比,InverTune在保持下游任务性能的同时显著降低了后门攻击成功率,且不需要任何干净参考样本。本文主要贡献包括:首次将后门与对抗相关性引入多模态防御,提出无需干净数据的训练框架,以及在多个攻击场景下的鲁棒性验证。

💡 推荐理由: 多模态对比学习(如CLIP)被广泛用于图像检索、视觉问答等关键任务,其后门安全隐患可能被攻击者利用。InverTune提供了一种无需干净数据、通用性强的防御思路,对保护多模态AI系统具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)