#adversarial robustness 主题 - Cyber Security Daily Radar

👥 作者: Pankaj Kumar, Subhankar Mishra

本论文研究图基础模型（GFM）的对抗攻击问题。GFM通过一个共享表示层（对齐层）将不同图域的输入映射到统一表示，然后进行下游推理。作者首次提出这一对齐层是GFM独有的攻击面，而传统图神经网络（GNN）没有。他们设计了两类攻击：表示空间扰动攻击和可实现输入空间攻击。前者在推理阶段直接扰动共享表示，实验显示，对于六个公开GFM（包括谱分词器、文本嵌入空间和离散码本模型），扰动都能使模型崩溃，但所需预算与普通GNN相当；例外是OpenGraph，其谱分词器在仅需普通GNN五分之一预算下就崩溃，表明该脆弱性源于对齐层而非解码器。后者通过编辑输入图中的边、特征或文本实现攻击，在六个模型中的三个上，峰值时可移除超过一半的正确预测。进一步分析表明，攻击效果的强弱取决于解码器读取表示的直接程度，而非模型本身的干净准确率。作者从解码器的局部Lipschitz敏感性出发，提出了衡量攻击脆弱性的载波增益指标，并指出干净准确率余量作为排序启发式在可实现攻击下不成立。该工作首次系统揭示并量化了GFM共享表示的脆弱性，为后续防御研究提供了基础。

💡 推荐理由: 图基础模型在欺诈检测、药物发现等安全关键领域广泛应用，其共享表示层是新攻击面，可能导致模型在推理时被轻易欺骗，影响下游任务可靠性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ana-Maria Cretu 0002, Klim Kireev, Amro Abdalla, Wisdom Obinna, Raphael Meier, Sarah Adel Bargal, Elissa M. Redmiles, Carmela Troncoso

本文评估了从文生图模型（如扩散模型）的训练数据中过滤儿童图像以阻止模型被滥用于生成儿童性虐待材料（CSAM）的有效性。首先，作者通过基于游戏的安全定义捕捉了防止CSAM生成的复杂性，指出过滤防御需平衡攻击者能力和模型实用性。其次，实证表明现有检测方法（如基于感知哈希或分类器）无法从数据集中完全移除所有儿童图像，存在漏网之鱼。第三，以“戴眼镜的儿童”作为CSAM的伦理代理，实验发现即使训练数据中仅残留少量儿童图像（过滤后），攻击者仍可通过特定提示策略（如重复采样或组合概念）以略多于未过滤模型的查询次数生成戴眼镜的儿童。若对过滤后的模型进行微调（使用少量儿童图像），额外查询开销进一步降低。此外，即使过滤完美（训练数据中无儿童图像），攻击者仍可通过微调（例如使用少量外部儿童图像）重新引入生成儿童概念的能力。结果表明，当前儿童过滤方法对闭源模型提供有限保护，对开源模型则完全无效，且过滤会损害模型通用性（如削弱儿童相关概念生成或改变其语义表示）。最后，作者指出了评估概念过滤防御对CSAM影响时面临的挑战，包括缺乏真实CSAM数据、伦理约束及可迁移性等问题。本文适合从事AIGC安全、内容审核、模型鲁棒性研究的学者及平台安全策略制定者阅读。

💡 推荐理由: 揭示了当前基于数据过滤的CSAM防护存在根本性缺陷，攻击者可通过少量残留样本或微调绕过防御，对开源模型尤其危险。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Niklas Bunzel

过去十年中，对抗鲁棒性研究产生了数百种防御模型，但文献几乎普遍孤立地报告鲁棒性结果：仅展示鲁棒模型的标准（干净）准确率和对抗准确率，而很少量化与对应普通模型（vanilla model）的差距。本文提出 VanillaBench，一个系统化的基准测试，明确揭示这一差距。针对 RobustBench 收录的四种威胁模型下的所有对抗训练模型，本文计算了其与 Papers with Code 中多个普通参考模型的准确率差异，参考类型包括所有条目、无额外数据条目、鲁棒模型发表年份的最佳普通模型，以及架构匹配的基线。对全部 186 个鲁棒模型的评估显示，相对于最佳普通模型的平均干净准确率差值范围为 -7.7 到 -29.5 个百分点；即使每条赛道最鲁棒的模型，与其同期普通模型相比仍落后 4.0 到 21.0 个百分点。架构匹配比较（隔离对抗训练的影响）揭示了 -3.5 到 -17.5 个百分点的平均差距；进一步限制为在完全相同的架构上已知普通准确率的模型时，差距缩小至 -4.0 到 -14.0 个百分点。这些结果表明，鲁棒性-准确率权衡比单个论文通常传达的要大得多。对于实践者和决策者而言，在真实场景中部署模型时，鲁棒性的准确率代价直接影响业务成果，而当前出版物并未提供评估所需的普通基线。本文认为，未来的鲁棒性评估应将普通参考准确率差距作为标准组成部分报告。该工作适合机器学习工程师、安全研究人员和模型部署决策者阅读。

💡 推荐理由: 该基准首次系统量化了对抗鲁棒性带来的准确率损失，揭示了现有文献严重低估的 trade-off，帮助安全从业者在选择鲁棒模型时权衡安全性与业务指标。

🎯 建议动作: 纳入内部评估

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Fabien Polly

该论文针对参数高效微调（PEFT）中的安全风险，特别是微调投毒攻击，提出了一种子空间约束的微调方法。研究背景是：PEFT虽然只更新少量参数，但仍有足够能力表示恶意行为，使得投毒目标函数可被优化。为此，作者从现有任务适配器的可信池中估计出一个共享子空间，并将微调限制在该子空间内。在flan-t5-large模型和196个公开LoRA适配器上的实验表明：（1）适配器中的功能相关内容位于低维共享子空间，30-38%的权重范数在评估任务分布下是冗余的；（2）在该子空间上限制128个坐标的梯度适配，在干净分类数据上匹配全LoRA微调性能，而在针对标签反转攻击下，LoRA的精确匹配率降至3-26%，而约束学习器在池覆盖的任务上保持62-96%；（3）约束学习器无法拟合损坏数据，其适应损失将干净数据与垃圾数据区分开120倍，无需额外检测器即可提供分布外信号；（4）针对在子空间内优化的自适应后门攻击，当目标行为与池中任何行为不同时，攻击被阻止（成功率8% vs LoRA的100%），仅当目标行为与常见池行为一致时部分成功（85%）。该方法机制是以峰值塑性为代价换取这些属性：在池覆盖差的任务上，无约束微调更优，且保护假设池本身可信。代码和数据已公开。该研究为防御微调投毒提供了新思路，特别适合关注LLM安全、微调鲁棒性的研究人员和工程师。

💡 推荐理由: 针对参数高效微调中的投毒和后门攻击，提出了一种无需额外检测器的子空间约束方法，显著提升了安全性，同时保持了大部分下游任务性能。

🎯 建议动作: 研究跟进，评估该方法在自己的微调流水线中的可行性与效果。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zhaoqi Wang, Zijian Zhang, Kun Zheng, Zhen Li, Xin Li, Chunlei Li, Jiamou Liu

本文提出了一种名为 Tree of Evidence (ToE) 的分层可解释声明验证框架，用于自动事实核查，以应对虚假新闻尤其是生成式引擎优化（GEO）投毒下AI生成错误信息的威胁。ToE 将每个声明建模为一个动态扩展的论证树，通过集成强化学习驱动的多源检索智能体、证据评估智能体和论证树聚合算法，迭代地分解、检索和验证声明，形成可解释的证据链。理论分析推导了检索过程的误差界，证明学习策略收敛到信息论最优策略的邻域。在多个数据集和骨干大语言模型上的实验表明，ToE 相比强基线提升了4到24个百分点，在对抗性投毒输入上提升尤为显著。该框架为事实核查提供了可解释性，并有效对抗检索系统被恶意内容污染的问题。适合LLM安全、虚假信息检测及信息检索领域的研究者和从业者阅读。

💡 推荐理由: 该研究直接应对GEO投毒下AI生成错误信息对信息生态的威胁，提出的可解释证据链方法能提升事实核查的鲁棒性和可信度，对防御检索增强生成（RAG）系统被污染有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Parsa Memarzadehsaghezi, Zahra Hashemi, Pooria Madani, Mehran Ebrahimi

该论文针对基于机器学习的分类器在对抗性逃避攻击下鲁棒性不足的问题，提出了一种名为 RESSAP（Robust Ensemble of Selectively Strengthened and Augmented Predictors）的新型防御框架。现有防御机制往往泛化能力有限，且难以在多种攻击场景下系统地提升模型鲁棒性。RESSAP 通过将单个分类器转换为多个鲁棒分类器的集成来应对这一挑战。首先，利用一个综合考虑特征重要性和鲁棒性的弹性度量，为每个集成分类器精心选择特征子集；然后，在训练过程中引入基于噪声的数据增强，以强化决策边界并提升泛化能力；在推理阶段，随机选取部分分类器进行预测，增加不可预测性，从而增强抗对抗操纵能力。实验结果表明，RESSAP 在保持干净数据高准确率的同时，显著提升了对抗逃避攻击的鲁棒性。该框架与模型无关，无需对现有架构进行重大修改，为机器学习系统提供了一种可扩展且灵活的防御策略。

💡 推荐理由: 机器学习模型在欺诈检测、网络安全等关键领域易受逃避攻击，RESSAP 提供了一种模型无关、可扩展的集成防御方法，能在不牺牲正常准确率的情况下显著提升鲁棒性，适合安全工程师评估现有模型防御能力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Weiran Lin, Keane Lucas, Neo Eyal, Lujo Bauer, Michael K. Reiter, Mahmood Sharif

该论文针对机器学习模型面对逃避攻击时的鲁棒性评估问题，指出现有的有目标鲁棒性和无目标鲁棒性指标无法准确反映现实场景中的威胁。具体来说，在许多实际应用中，攻击者可能只关心将某类源样本误导至某类目标样本，而非任意类别。为此，论文正式定义了一种新的鲁棒性指标——基于分组的鲁棒性（group-based robustness），该指标能够衡量模型在特定源类集到特定目标类集的攻击场景下的表现，补充了传统指标的不足。实验表明，该指标能在传统指标不适用的情况下有效区分模型对不同威胁模型的脆弱性。为了实现高效准确的评估，论文提出了两种新的损失函数和三种新的攻击策略。实验证明，使用新损失函数可以在保持相似成功率的同时，将计算复杂度降低与目标类别数相同的倍数；新攻击策略相比暴力搜索方法可节省高达99%的时间。最后，论文提出一种防御方法，将基于分组的鲁棒性提升多达3.52倍。该研究为模型鲁棒性评估提供了更贴近实际威胁的框架，适合机器学习安全研究人员、AI系统开发者以及需要部署对抗环境下的模型工程师阅读。

💡 推荐理由: 该论文提出的分组鲁棒性更贴合实际攻击场景，能帮助防御者精准评估模型在特定威胁下的表现，并为定制化防御提供理论依据。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Samuel Korn

该论文系统性地研究了检索增强生成（RAG）系统在知识库投毒攻击下的鲁棒性，重点关注不同RAG架构之间的差异。现有攻击几乎只在简单的“检索-生成”流水线上测试，而本文首次评估了四种典型RAG架构：vanilla RAG（标准流水线）、agentic RAG（智能体式检索）、MADAM-RAG（多智能体辩论）和Recursive Language Models（递归语言模型）。实验基于921个Natural Questions问答对，在单文档投毒（N=1）场景下比较了干净基线、简单注入和一种名为CorruptRAG-AK的对抗攻击——该攻击利用元认知框架针对可信度评估进行攻击。核心发现：架构是影响对抗鲁棒性的高可变因素。在CorruptRAG-AK攻击下，各架构的攻击成功率差异显著：vanilla RAG高达81.9%，而RLM仅24.4%，跨度近58个百分点，尽管它们在干净数据上的准确率相近（约92%）。进一步分解发现，一旦投毒文档被检索到，攻击优势主要来自对抗性框架（而非检索优化），且脆弱性集中在内容推理阶段。MADAM-RAG在重新实现中表现出最高的矛盾检测率，但LLM评判器过度识别了该行为（精确率约48.5%），因此报告值为上限。即便检测到矛盾，MADAM-RAG也无法可靠解决，导致即使是干净输入也有41.4%的非回答率（不过可能与实现偏差有关）。论文引入了一个七类别行为分类法，涵盖了矛盾检测、模糊回答及失败模式等，超越了二元准确率。代码、数据和笔记本已公开可用。适合关注LLM安全、RAG系统防护及对抗鲁棒性研究的读者。

💡 推荐理由: 揭示了不同RAG架构在知识库投毒下的脆弱性差异，指明攻击成功的关键环节是内容推理而非检索，为设计更鲁棒的RAG系统提供了重要参考。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#adversarial robustness

Attacking Graph Foundation Models Through Their Shared Representation

Evaluating Concept Filtering Defenses against Child Sexual Abuse Material Generation by Text-to-Image Models.

VanillaBench: The Hidden Accuracy Cost of Adversarial Robustness

Learning Only What Valid Adapters Can Express: Subspace-Constrained Adaptation Against Fine-Tuning Poisoning

ToE: A Hierarchical and Explainable Claim Verification Framework with Dynamic Multi-source Evidence Retrieval and Aggregation

Robust Ensemble of Selectively Strengthened and Augmented Predictors

Group-based Robustness: A General Framework for Customized Robustness in the Real World.

Architecture Matters: Comparing RAG Systems under Knowledge Base Poisoning