#adversarial machine learning 主题 - Cyber Security Daily Radar

👥 作者: Jinyuan Jia 0001, Yupei Liu, Neil Zhenqiang Gong

自监督学习在计算机视觉领域通过大量无标签图像或(图像，文本)对预训练图像编码器，然后将该编码器作为特征提取器，用于少量或零标注数据的下游分类任务。本文提出BadEncoder，是首个针对自监督学习的后门攻击方法。该方法将后门注入预训练图像编码器，使得基于该编码器构建的多个下游分类器同时继承后门行为。攻击者通过优化问题形式化BadEncoder，并采用梯度下降方法从干净编码器生成带后门的编码器。在多个数据集上的实验表明，BadEncoder能在保持下游分类器精度的同时实现高攻击成功率。进一步在真实世界编码器（如Google在ImageNet上预训练的编码器和OpenAI在4亿(图像,文本)对预训练的CLIP图像编码器）上验证了有效性。现有防御方法（包括经验性防御Neural Cleanse、MNTD以及可证明防御PatchGuard）均无法有效防御BadEncoder，凸显了开发新型防御的需求。代码已开源。

💡 推荐理由: 该研究首次揭示自监督预训练编码器存在后门攻击风险，现有防御全面失效，威胁广泛使用的CLIP等模型，急需防御方案。

🎯 建议动作: 研究跟进，评估自身自监督模型后门风险，关注后续防御方案

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Juozas Dautartas, Olga Kurasova, Juozapas Rokas Čypas, Viktor Medvedev

本文研究基于机器学习的恶意软件检测器在静态特征（如Win32 API导入）上的脆弱性。作者提出一种对抗性攻击框架，能够通过向可执行文件添加少量特定于目标良性类别的API导入，使恶意软件被误分类为选定的良性软件类别（如PDF阅读器、游戏等），而非仅仅被标记为“非恶意”。该框架核心是一个条件变分自编码器（CVAE），其解码器采用严格加法操作，只添加新的API调用而不移除任何现有导入，从而保持恶意软件的功能完整。框架自动为每个恶意样本寻找最相似的良性类别作为规避目标，并利用知识蒸馏得到的可微代理模型，对不可微的集成检测器进行梯度训练。在包含3,799个Windows可执行文件（五个良性类别和一个恶意类）的六类数据集上，实验表明：当基线检测器恶意软件召回率为87.5%时，仅添加20个API导入即可将召回率降至30%；在逃逸检测的样本中，99%被分类为预期的目标类别。在VirusTotal上对真实PE文件的验证显示，该攻击可迁移至商业静态检测引擎，平均减少54.5%的报警引擎。该研究揭示了基于API的恶意软件分类器存在的具体漏洞，证明只需少量、保持功能的修改即可实现定向规避。

💡 推荐理由: 该研究证明仅通过添加少量API导入即可定向逃避主流静态恶意软件检测引擎，对安全厂商的机器学习模型构成实际威胁，需引起警惕。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#adversarial machine learning

BadEncoder: Backdoor Attacks to Pre-trained Encoders in Self-Supervised Learning.

Learning to Look Benign: Targeted Evasion of Malware Detectors via API Import Injection