#adversarial robustness 主题 - Cyber Security Daily Radar

👥 作者: Parsa Memarzadehsaghezi, Zahra Hashemi, Pooria Madani, Mehran Ebrahimi

该论文针对基于机器学习的分类器在对抗性逃避攻击下鲁棒性不足的问题，提出了一种名为 RESSAP（Robust Ensemble of Selectively Strengthened and Augmented Predictors）的新型防御框架。现有防御机制往往泛化能力有限，且难以在多种攻击场景下系统地提升模型鲁棒性。RESSAP 通过将单个分类器转换为多个鲁棒分类器的集成来应对这一挑战。首先，利用一个综合考虑特征重要性和鲁棒性的弹性度量，为每个集成分类器精心选择特征子集；然后，在训练过程中引入基于噪声的数据增强，以强化决策边界并提升泛化能力；在推理阶段，随机选取部分分类器进行预测，增加不可预测性，从而增强抗对抗操纵能力。实验结果表明，RESSAP 在保持干净数据高准确率的同时，显著提升了对抗逃避攻击的鲁棒性。该框架与模型无关，无需对现有架构进行重大修改，为机器学习系统提供了一种可扩展且灵活的防御策略。

💡 推荐理由: 机器学习模型在欺诈检测、网络安全等关键领域易受逃避攻击，RESSAP 提供了一种模型无关、可扩展的集成防御方法，能在不牺牲正常准确率的情况下显著提升鲁棒性，适合安全工程师评估现有模型防御能力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Weiran Lin, Keane Lucas, Neo Eyal, Lujo Bauer, Michael K. Reiter, Mahmood Sharif

该论文针对机器学习模型面对逃避攻击时的鲁棒性评估问题，指出现有的有目标鲁棒性和无目标鲁棒性指标无法准确反映现实场景中的威胁。具体来说，在许多实际应用中，攻击者可能只关心将某类源样本误导至某类目标样本，而非任意类别。为此，论文正式定义了一种新的鲁棒性指标——基于分组的鲁棒性（group-based robustness），该指标能够衡量模型在特定源类集到特定目标类集的攻击场景下的表现，补充了传统指标的不足。实验表明，该指标能在传统指标不适用的情况下有效区分模型对不同威胁模型的脆弱性。为了实现高效准确的评估，论文提出了两种新的损失函数和三种新的攻击策略。实验证明，使用新损失函数可以在保持相似成功率的同时，将计算复杂度降低与目标类别数相同的倍数；新攻击策略相比暴力搜索方法可节省高达99%的时间。最后，论文提出一种防御方法，将基于分组的鲁棒性提升多达3.52倍。该研究为模型鲁棒性评估提供了更贴近实际威胁的框架，适合机器学习安全研究人员、AI系统开发者以及需要部署对抗环境下的模型工程师阅读。

💡 推荐理由: 该论文提出的分组鲁棒性更贴合实际攻击场景，能帮助防御者精准评估模型在特定威胁下的表现，并为定制化防御提供理论依据。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Samuel Korn

该论文系统性地研究了检索增强生成（RAG）系统在知识库投毒攻击下的鲁棒性，重点关注不同RAG架构之间的差异。现有攻击几乎只在简单的“检索-生成”流水线上测试，而本文首次评估了四种典型RAG架构：vanilla RAG（标准流水线）、agentic RAG（智能体式检索）、MADAM-RAG（多智能体辩论）和Recursive Language Models（递归语言模型）。实验基于921个Natural Questions问答对，在单文档投毒（N=1）场景下比较了干净基线、简单注入和一种名为CorruptRAG-AK的对抗攻击——该攻击利用元认知框架针对可信度评估进行攻击。核心发现：架构是影响对抗鲁棒性的高可变因素。在CorruptRAG-AK攻击下，各架构的攻击成功率差异显著：vanilla RAG高达81.9%，而RLM仅24.4%，跨度近58个百分点，尽管它们在干净数据上的准确率相近（约92%）。进一步分解发现，一旦投毒文档被检索到，攻击优势主要来自对抗性框架（而非检索优化），且脆弱性集中在内容推理阶段。MADAM-RAG在重新实现中表现出最高的矛盾检测率，但LLM评判器过度识别了该行为（精确率约48.5%），因此报告值为上限。即便检测到矛盾，MADAM-RAG也无法可靠解决，导致即使是干净输入也有41.4%的非回答率（不过可能与实现偏差有关）。论文引入了一个七类别行为分类法，涵盖了矛盾检测、模糊回答及失败模式等，超越了二元准确率。代码、数据和笔记本已公开可用。适合关注LLM安全、RAG系统防护及对抗鲁棒性研究的读者。

💡 推荐理由: 揭示了不同RAG架构在知识库投毒下的脆弱性差异，指明攻击成功的关键环节是内容推理而非检索，为设计更鲁棒的RAG系统提供了重要参考。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#adversarial robustness

Robust Ensemble of Selectively Strengthened and Augmented Predictors

Group-based Robustness: A General Framework for Customized Robustness in the Real World.

Architecture Matters: Comparing RAG Systems under Knowledge Base Poisoning