#distribution-preserving

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Guanhong Tao 0001, Zhenting Wang, Shiwei Feng 0002, Guangyu Shen, Shiqing Ma, Xiangyu Zhang 0001

该论文研究了自监督学习中的后门攻击问题。自监督学习通过大量无标签数据训练特征提取器(编码器),下游任务可在其上构建分类器。然而,攻击者可以通过向无标签训练数据注入后门,使基于后门编码器构建的下游分类器将带有触发器的输入错误分类为目标标签。现有后门攻击存在一个关键缺陷:中毒样本在特征空间中与干净数据显著偏离(即分布外),且中毒样本之间高度集中(高成对相似性),这使得它们易被先进的防御技术检测。为此,论文提出了一种名为Drupe的分布保持后门攻击方法,通过最小化中毒样本与干净数据之间的分布距离,将中毒样本转换为分布内数据;同时将中毒数据分散到目标类别分布的更广区域,以缓解浓度问题。在五个流行数据集上的评估表明,Drupe相比现有攻击显著降低了中毒分布的分布距离和浓度,成功规避了两种最先进的自监督学习后门防御,并且对知情防御者具有鲁棒性。该研究揭示了自监督学习后门攻击的新威胁方向,对安全社区构建更鲁棒的防御方法具有参考价值。

💡 推荐理由: 该攻击突破了自监督学习后门攻击的检测假设,使现有分布防御失效,威胁基础模型下游安全性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)