#adversarial-robustness 主题 - Cyber Security Daily Radar

👥 作者: Yang Gao

该论文系统性地评估了用于衡量大语言模型（LLM）越狱攻击成功率的自动化裁判（ASR评分器）的可靠性。研究背景是：几乎所有关于LLM越狱和提示注入的论文都报告攻击成功率（ASR），但这些ASR通常由自动化裁判（专用安全分类器或通用聊天模型）打分，而裁判本身的准确性很少被验证。论文使用HarmBench分类器验证集中的596个人工标注样本，将两种裁判家族（专用分类器和LLM-as-judge）与人类多数投票进行比较，然后对裁判进行攻击。研究发现两种裁判在失败方式上截然相反：专用分类器过度标记（精确率0.835，召回率0.974）；三个不同的LLM-as-judge精确率高（0.81-0.94），但召回率波动大（0.06-0.65），导致同一组响应因裁判不同而得到截然不同的ASR。鲁棒性方面，仅添加良性框架而保持有害文本不变的包装器可使LLM-as-judge在57%-100%的情况下被翻转，其中单个拒绝前缀语句就解释了大量翻转（39%-88%）。专用分类器抵抗此类表面攻击（最多6.7%），但针对其开放权重的白盒GCG攻击在很小的优化预算下就翻转了70%的置信真阳性（21/30，95% CI 54%-86%）。双标注员审计确认攻击未破坏有害性：采样的80个翻转案例全部仍包含有害内容。由于报告ASR中来自LLM-as-judge的比例日益增长，许多ASR数字在平均情况下和受刻意压力下都不可靠。论文建议在论文中报告裁判在人工标注切片上的精确率和召回率，报告经裁判精确率校正的ASR，并包含对裁判的对抗性检查。代码已开源。

💡 推荐理由: 当前大量LLM安全研究依赖自动化裁判报告ASR，但裁判自身的可靠性从未被系统性检验。本论文揭示专用分类器和LLM-as-judge双方向都脆弱，可能导致大量已发表结果不可靠，直接冲击整个LLM安全评估的可信度。

🎯 建议动作: 研究跟进：论文提出的裁判校准和对抗检查方法应纳入内部评估流程，建议在提交安全评估结果时同时报告裁判的精确率和召回率。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Advik Raj Basani, Anshuman Chhabra

本文研究了大型语言模型（LLM）中知识编辑（Knowledge Editing, KE）方法的可靠性与潜在安全漏洞。KE 旨在无需昂贵重训练即可更新模型中的特定事实，但最新研究发现其效果存在严重局限性。作者从对抗性诱发（adversarial elicitation）的视角出发，通过精心设计的间接提示（indirect prompting）和对抗性攻击，系统性地测试了多种主流 KE 方法（如模型编辑、定位编辑等）在多种模型架构（如 GPT、LLaMA 等）上的表现。实验表明，编辑后的知识并未被真正擦除，而是隐藏在模型内部，仍能通过特定触发条件重新浮现。机制分析揭示，这些 KE 方法本质上不是覆盖原有知识，而是将其重新分布在模型的表示空间中，仅起到针对性抑制（targeted suppression）的作用，即降低输出原始事实的概率，但并未从模型中消除。此外，损失景观分析显示，编辑后的知识位于狭窄的各向异性区域（narrow anisotropic regions），对扰动高度敏感，因此极易被间接提示或对抗攻击所绕过。本文的研究证明了现有 KE 算法具有内在的可绕过性，并呼吁重新评估在 LLM 应用中部署事后更新的整体思路。该工作对 LLM 部署的安全性、隐私保护以及对抗鲁棒性具有重要启示。

💡 推荐理由: 揭示了 LLM 知识编辑的安全幻觉：编辑后的敏感或错误信息仍可通过对抗性提示提取，对模型安全审计和内容控制带来挑战。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nicola Franco

该论文对 Anthropic 开发的两个前沿大语言模型（Fable 5 和 Opus 4.8）进行了系统性的红队测试，评估其对抗自动化越狱攻击的鲁棒性。研究使用 HackAgent 红队框架，生成了数十万次对抗性尝试，覆盖四个自动化越狱攻击家族（包括静态混淆和自适应迭代攻击），针对 7,826 个有害意图，涵盖十类危害分类（如歧视、暴力、非法行为等）。每个表面成功的攻击都经过三个独立法官模型的多数投票重新裁决。结果表明，两个模型能抵御大部分攻击，但残余攻击面比聚合指标所暗示的更大：自适应迭代攻击（尤其是树状攻击）主导了成功率，而静态混淆几乎被完全缓解。最强的树状攻击对 Opus 4.8 的总体意图成功率为 11.5%，而 Fable 5 最差情况仅为 6.1%（单数字）。然而，即使在这些加固配置下，两个模型仍分别产生了 1,620 和 702 个经面板确认的有害完成，涉及所有危害类别，且这些攻击可由攻击模型自动、低成本地在最初一两次优化步骤中完成，无需人类专家参与。论文的合理结论是：即使经过最充分测试的前沿模型，在持续的自动化攻击压力下仍然可以被可靠攻破。该研究强调了当前红队评估中聚合成功率的误导性，并呼吁开发更密集、更具迭代性的评估方法。适合 AI 安全研究人员、大模型开发团队及安全工程师阅读。

💡 推荐理由: 揭示了即使在最先进的安全训练后，前沿大模型仍易受自动化自适应越狱攻击，且成功率远非零。这提醒安全从业者不能依赖静态缓解，而需持续监控和迭代测试。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xinhai Zou, Chang Zhao, Alireza Aghabagherloo, Dave Singelée, Robin Degraeve, Bart Preneel

本文研究强化学习（RL）训练如何破坏基于梯度的对抗攻击。传统上，梯度攻击（如PGD、AutoAttack）利用神经网络的梯度信息高效生成对抗样本。作者假设RL训练（使用策略梯度目标和epsilon-greedy探索）可以改变模型梯度结构，使攻击者难以优化。在CIFAR-10、CIFAR-100和ImageNet-100数据集上，采用多种架构（如ResNet）进行系统实验，结果表明RL训练的分类器显著降低梯度攻击的成功率。机制分析通过损失景观可视化、静态和动态梯度指标以及预测熵揭示：RL充当隐式正则化器，迫使模型产生高度不稳定的梯度方向和较小的梯度幅度。这种组合使得每个PGD迭代步骤在方向和幅度上均不可靠，导致攻击在实用迭代预算内失败。进一步地，将RL与对抗训练结合（RL-adv）形成双层防御：RL在梯度层面削弱攻击信息，对抗训练在决策边界层面增强鲁棒性。RL-adv在梯度攻击、迁移攻击和查询攻击上均取得最高鲁棒性，显著优于标准对抗训练（SL-adv）。主要贡献包括：首次提出RL诱导的梯度破坏作为互补鲁棒机制；揭示梯度不稳定性和幅度减小是核心原因；验证RL-adv结合了两种不同层面的防御。适合对对抗鲁棒性、强化学习应用和安全防御感兴趣的研究者阅读。

💡 推荐理由: 该研究揭示了一种新颖的鲁棒性机制，即通过RL训练破坏梯度信息，为对抗防御提供了不同与传统对抗训练的新思路，可能启发未来混合训练策略。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mayank Raj, Nathaniel D. Bastian, Lance Fiondella, Gokhan Kul

本文系统性评估了机器学习驱动的网络入侵检测系统（NIDS）在面对对抗性攻击时的鲁棒性。尽管已有研究揭示了ML模型在特定场景下的脆弱性，但缺乏跨架构、跨攻击类别和攻击类型的系统比较，导致安全从业人员在选择模型时缺乏明确指导。作者选取了三种主流分类器架构——1D卷积神经网络（CNN）、长短期记忆网络（LSTM）和随机森林（RF）集成，并在ACI-IoT-2023数据集（包含超过120万样本，涵盖12种攻击类型）上进行实验。对抗攻击采用FGSM和PGD方法，在归一化特征空间施加梯度扰动，扰动预算从ε=0.01到ε=0.1。结果显示：随机森立基线准确率高达99.98%，但受到攻击时性能急剧下降，即使在最小扰动ε=0.01下也下降了73个百分点；CNN则展现出优雅退化特性，在ε=0.01时仍保持95.5%的准确率；LSTM性能介于两者之间。这一发现颠覆了“高基线准确率意味着高鲁棒性”的传统认知。作者建议在对抗性环境中部署基于CNN的NIDS，并针对不同场景给出了具体部署建议。

💡 推荐理由: 该研究揭示了常见ML架构在对抗性扰动下的实际鲁棒性差距，为蓝队选择NIDS模型提供了关键实验证据，避免因依赖高基线准确率而忽视脆弱性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Eric Yocam, Christian Yocam, Varghese Vaidyan, Yong Wang, Mahesh Kalappattil, Anthony Rizi

本文提出并形式化了超空间浓度（superspace concentration）作为一种量子资源，并通过焦点度量 F(ρ) = λ_max(ρ_super)（即约化超空间态的最大特征值）来量化量子系统将信息权重集中到扩展自由度空间中某个优先子空间的能力。作者围绕该度量建立了完整的资源理论框架，并通过GPU加速数值模拟验证了其性质。对于超空间维度 dS ∈ {2,4,8,16,32}，解析退相干预测被确认达到机器精度（1.11×10^{-16}）。在四种焦点非生成信道和六种系统配置下，对10,000个随机态的焦点单调性进行测试，零违规。焦点量子态在抵抗相干酉攻击时表现出比标准保真度预测显著更强的鲁棒性：在攻击强度 ε=0.302 时焦点仍保持在0.9以上，而保真度在 ε=0.174 时已低于0.9。进一步证明焦点度量与 U(dS)-不对称度量在操作上截然不同：在相干且定向攻击下不对称度保持近零且不提供鲁棒性信号，而焦点度量跟踪谱浓度并在 ε>0.3 前保持鲁棒。通过恒等式 F(|ψ_k⟩⟨ψ_k|) = P(marked) 明确建立了 Grover 算法与超空间浓度的联系，为 oracle 查询复杂度提供了资源理论解释。最后，首次数值刻画了焦点容量缺口 ΔF，识别出 log_2(dS) 标度律，并在乘积和关联噪声通道中得到确认。该工作为量子算法安全性分析提供了新视角，尤其适用于评估量子计算对抗攻击的鲁棒性。

💡 推荐理由: 为量子算法的对抗鲁棒性提供了新的资源理论度量，有望推动量子计算安全领域的发展。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Malikeh Ehghaghi, Boglárka Ecsedi, Marsha Chechik, Colin Raffel

本文提出了一种基于计算压力的对抗鲁棒性评估框架，用于衡量大型语言模型（LLM）在对抗性攻击下的实际安全性。传统的评估方法通常以固定查询预算下的攻击成功率（ASR）作为指标，忽略了不同攻击策略在计算开销上的巨大差异（可能相差数个数量级）。为解决这一问题，作者引入累积浮点运算次数（FLOPs）作为攻击成本的代理，提出了风险-计算曲线（risk-compute curves），将计算预算映射到攻击风险，并推导出两个总结指标来量化攻击成功所需的平均压力。在10个不同模型（涵盖3个模型系列、4个训练和对齐阶段）上，使用三种攻击策略（基于梯度的、迭代细化的、基于模板的）对两个越狱鲁棒性基准进行了评估。主要发现包括：（1）对齐训练在计算空间鲁棒性上表现出非单调效应；（2）增大模型规模能降低基于梯度的攻击有效性，但对成本更低的模板攻击影响有限；（3）基于梯度的攻击在代理模型上优化后可迁移到另一个目标模型，从而降低攻击者成本；（4）在单个模型内，不同危害类别的计算成本差异可达约5倍；（5）安全对齐的强化学习增加了总体成本，但使某些类别不成比例地更容易被攻击。作者开源了该框架以支持计算感知的风险评估。

💡 推荐理由: 为LLM对抗鲁棒性评估引入了计算成本维度，使安全从业者能更真实地衡量攻击的实际可行性，指导防御资源分配。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Jianwen Tian, Wei Kong, Debin Gao, Tong Wang, Taotao Gu, Kefan Qiu, Zhi Wang 0014, Xiaohui Kuang

本文针对AI驱动的恶意软件检测器面临的多种挑战（包括投毒攻击、逃避攻击和概念漂移）提出了一种统一的解决方案。作者指出这些挑战的一个根本原因是数据稀疏性，即某些特征值在数据集中出现的频率极低。为解决稀疏性问题，论文设计了新的压缩技术来缓解稀疏性，并提出了一种密度提升训练方法来持续填充稀疏区域。该方法被应用于PE、Android和PDF恶意软件数据集（如EMBER、SOREL-20M、DREBIN和Contagio）进行实验。结果表明，该方法不仅增强了模型对抗各种攻击的鲁棒性，还提升了检测性能和时间可持续性。例如，在EMBER数据集上，后门攻击成功率从99.99%降至23.71%，F1分数从99.301%升至99.488%；在SOREL-20M数据集上，可持续性指标AUT从92.850%提升至95.135%。该方法与现有防御技术互补，并在多个数据集上验证了其一致性。

💡 推荐理由: 本文提供了一种同时提升恶意软件检测器性能、鲁棒性和可持续性的统一策略，解决了当前防御方案孤立处理问题的局限，对提升实际安全系统的防御能力有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hangtao Zhang, Yucheng Zhao, Sishun Liu, Ziqi Zhou, Zeyu Ye, Wei Wan, Minghui Li, Shengshan Hu, Yanjun Zhang, Yi Liu, Leo Yu Zhang

本文针对大型语言模型（LLM）面临的越狱攻击（jailbreak attacks）问题，提出了一种新的检测方法——流形轨迹动力学（Manifold Trajectory Kinetics, MTK）。现有检测方法通常依赖固定的度量空间（如原始输入、梯度或隐藏特征），假设良性提示与越狱提示在该空间中线性可分。然而，这种假设在面对两类场景时失效：（1）伪恶意提示（pseudo-malicious prompts），即意图良性但包含安全相关关键词的提示；（2）自适应攻击（adaptive attacks），即明确针对检测器优化的攻击。为解决该问题，作者将视角从寻找通用度量空间转向分析底层数据流形的邻域结构。MTK将LLM视为一个将输入转化为输出的动力学系统，通过追踪提示（prompt）的邻域结构在各层间的演化来检测越狱。具体而言，良性提示在推理过程中始终与良性邻域保持接近，而越狱提示则表现出特征性轨迹：初始靠近恶意种子，随后策略性地向良性邻域移动以逃避拒绝机制。实验在四个LLM和十种越狱攻击上进行，结果显示MTK对两类失效模式均具有强鲁棒性：在伪恶意提示上，以良性提示5%假阳性率和伪恶意提示2%假阳性率实现95%真阳性率；在自适应攻击下保持85%真阳性率。此外，MTK在视觉语言模型的越狱检测中也表现出优越性能。

💡 推荐理由: LLM部署时越狱检测是安全关键，现有方法易被伪恶意提示和自适应攻击绕过，MTK通过分析流形轨迹的创新思路显著提升了鲁棒性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Vincent Limbach, Jonas Dornbusch, David Lüdke, Stephan Günnemann, Leo Schwinn

该论文针对大型语言模型（LLM）的对抗鲁棒性评估缺乏标准化基准的问题，提出了一种新的攻击方法——间接危害优化（Indirect Harm Optimization, IHO）。目前，LLM的越狱攻击评估存在诸多缺陷：攻击设计不完善会导致鲁棒性估计虚高，影响部署风险评估和防御比较。图像分类领域已有AutoAttack等标准化攻击，但LLM领域尚无类似方法，主要因为设计一个同时满足黑盒兼容、适用于任意防御管线、且高效的攻击极具挑战。IHO利用掩码扩散语言模型，通过迭代偏好优化来训练攻击者，仅需对目标模型进行黑盒访问。该方法无需修改即可作为针对个体行为的强自适应攻击，或作为高效的摊销策略迁移到未见的行文和未知目标模型，且无需微调。即使面对分层防御（如Circuit Breaker训练模型结合辅助检测器），IHO在不进行防御特定适配的情况下，攻击成功率也显著优于现有方法。论文将IHO定位为迈向标准化LLM越狱评估的实用步骤，有助于提升未来鲁棒性评估的可靠性。代码和模型已在GitHub和Hugging Face公开。

💡 推荐理由: 该攻击方法无需白盒访问即可高效评估LLM防御有效性，为蓝队和安全工程师提供了一种更接近真实威胁的测试工具，有助于发现现有防御的盲区。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Abu Taib Mohammed Shahjahan, Mohammad Mannan, Abdessamad Ben Hamza, Amr Youssef

该论文聚焦于深度伪造图像检测器在对抗攻击下的鲁棒性问题。尽管近年来提升检测器对未见生成模型泛化能力的研究取得进展，但检测器仍易受对抗样本攻击。作者复现了Abdullah等人（IEEE SP 2024）对八种检测器的评估，并额外测试了七种最先进检测器，均发现攻击下性能显著下降。为此，论文提出一个不依赖对抗训练的统一框架，融合三种互补设计：1）基于离散余弦变换（DCT）的四阶矩池化，在频域建立高阶统计建模；2）从噪声残差中提取内容无关特征；3）通过分块语义破坏实现跨场景泛化。核心洞察是对抗攻击主要利用低阶统计和视觉语义，而高阶残差-频率特征（尤其是峰度）几乎不受约束。大量实验表明，该方法在六种不同架构的检测器上持续提升鲁棒性，在现有对抗基准测试中将召回率退化降低最多88.9%，并将最佳检测器（Yang等人，IEEE CVPR 2025）的攻击下准确率从81.9%提升至97.15%。该工作为提升深度伪造检测对抗鲁棒性提供了通用的、架构无关的解决思路。

💡 推荐理由: 深度伪造检测器在对抗攻击下脆弱性是实际部署的关键隐患；该方法无需对抗训练即可显著提升鲁棒性，对蓝队构建可靠检测体系具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mohammadreza Teymoorianfard, Jean-Philippe Monteuuis, Jonathan Petit, Amir Houmansadr

该论文首次系统性地研究了具有推理能力的视觉-语言-动作（VLA）模型在自动驾驶场景下对现实输入扰动的鲁棒性。以往研究多假设推理与轨迹生成紧密耦合且鲁棒，但实际场景中存在各种文本输入噪声（如传感器错误、环境描述歧义等）。作者以NVIDIA最新提出的Alpamayo系列模型为代表性VLA框架，在黑盒设定下模拟了多种现实文本扰动，包括字符级错误、单词级替换、语义混淆等。实验采用闭环仿真环境（如CARLA），评估扰动对模型推理正确性和轨迹规划的影响。结果表明：攻击对推理环节的成功率高达89%，对最终轨迹操纵的成功率达72%，显著增加碰撞率并降低安全指标。为系统评估这种脆弱性，论文设计了推理感知评估框架，同时关注推理的语义一致性（如哪类指令被错误理解）和结构准确性（如动作序列的顺序错误），并引入安全中心度量（如最小安全距离违反次数）。此外，作者公开了一个基准测试集，涵盖不同类型的扰动与场景，用于标准化评估攻击与防御方法。该工作指出当前VLA模型缺乏对输入噪声的鲁棒性，亟需开发新的防御机制以确保L4级以上自动驾驶的安全性。

💡 推荐理由: 自动驾驶安全是硬约束，而本文揭示VLA模型在输入扰动下推理与轨迹双失效，威胁行车安全。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jaydip Sen

本文由Jaydip Sen撰写，发表于arXiv，属于cs.AI领域，主要探讨如何利用量子计算增强人工智能系统的对抗鲁棒性。文章首先回顾了人工智能在医疗、金融、自动驾驶等安全关键领域的成功应用，同时指出其深度神经网络容易受到对抗样本攻击的脆弱性——攻击者通过微小的输入扰动就能导致模型产生错误输出，这对系统的可靠性和可信度构成严重威胁。接着，文章系统性地介绍了对抗性机器学习的攻击类型（如快速梯度符号法、投影梯度下降等）和现有防御策略（如对抗训练、输入变换、鲁棒优化等），并分析了这些方法的局限性。然后，文章转向量子计算，以易懂的方式解释了量子比特、叠加、纠缠和量子干涉等核心原理，并介绍了量子机器学习的几种模型（如量子支持向量机、量子神经网络）。核心部分提出了量子增强对抗鲁棒性的概念框架，具体包括：1) 利用量子优化算法（如变分量子本征求解器）寻找更优的对抗训练平衡点；2) 采用量子特征映射将输入数据映射到高维希尔伯特空间，使样本在量子特征空间中更易分离且对小扰动不敏感；3) 设计混合量子-经典架构，其中经典神经网络处理初步特征提取，量子电路处理鲁棒性关键部分。文章还讨论了实际应用中的挑战，如当前量子硬件的噪声和退相干限制了大规模部署，以及未来研究方向，包括量子对抗样本生成、量子防御机制的可证明保证等。该文适合对AI安全、对抗性机器学习和量子计算交叉领域感兴趣的读者，为构建更安全的AI系统提供了丰富的理论参考。

💡 推荐理由: 对抗攻击是AI系统落地的核心安全瓶颈，量子计算有望从理论上提升防御上限。本文系统梳理了量子增强鲁棒性的多种方法，为安全从业者提供了前沿思路，尤其适合评估量子技术未来在蓝队防御中的应用潜力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiahao Huo, Wenjie Qu, Yibo Yan, Kening Zheng, Jiaheng Zhang, Xuming Hu, Philip S. Yu, Mingxun Zhou

本文提出一种名为 SAMark 的自锚定文本水印框架，旨在解决语义级文本水印在段落级改写攻击下鲁棒性不足的问题。传统语义水印以句子为基本单元，依赖于句子顺序，而段落级改写（如重排句子顺序、同义替换等）会全局破坏水印信号。SAMark 通过建立语义空间中与句子顺序无关的“自锚定”绿色区域，消除了水印对句子顺序的依赖。为提高可检测性，作者引入多通道双曲评分机制，利用双曲空间的几何特性放大水印信号并抑制弱对齐候选带来的噪声。此外，还提出一种结合硬过滤与软正则化的多样性感知过滤策略，超越简单的 n-gram 重复过滤，有效降低语义冗余。实验在多个数据集上采用典型段落级改写攻击（如句子重排、同义改写等），SAMark 在 1% 假阳性率下实现了最高 90.2% 的真阳性率，平均比最强基线方法提升超过 30%，同时保持与未加水印文本相当的生成本质量，打破了先前方法在鲁棒性与生成质量之间的权衡。该工作适用于 AI 生成文本的版权保护、溯源、防伪等场景，为抵御高级改写攻击提供了新思路。

💡 推荐理由: 随着大语言模型生成文本的广泛应用，文本水印成为关键的溯源和版权保护技术。SAMark 首次针对段落级改写攻击提供强鲁棒性，填补了现有水印在全局语义破坏下的空白，对 AI 内容安全与合规具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ahmed Sabbah, Mohammed Kharma, Radi Jarrar, Samer Zein, David Mohaisen

本文研究了在时间概念漂移背景下，Android恶意软件检测模型的对抗鲁棒性如何随时间演变。研究团队收集了跨越十多年的Android应用数据集，从模拟器和真实设备执行中提取静态和动态特征表示，并将数据按年份切片。他们设计了三种部署协议模拟真实世界的学习场景：(1) 同年训练和测试；(2) 跨年部署但不更新模型；(3) 扩展窗口重训练，利用累积的历史数据。在多种分类器家族上，使用FGSM和SPSA在可行性约束下生成对抗样本。实验测量了干净性能、对抗准确率（AA）、攻击成功率（ASR），并引入了三个时间链接指标——RobustDrop、ΔASR和对抗放大因子（AAF）——来量化分布偏移与鲁棒性退化之间的关系。结果表明，时间分离会降低基于特征迁移的对抗鲁棒性。随着训练-测试时间差距增大，干净准确率和对抗准确率均下降，而攻击成功率在某些配置下（特别是FGSM扰动和静态特征下）增加。扩展窗口重训练可以缓解但不能完全消除在持续分布演化下的鲁棒性损失。这些发现表明，在评估智能检测系统在演化数据分布下的长期鲁棒性时，应考虑时间漂移，并突出了在长期对抗环境中建立漂移感知鲁棒性评估框架的必要性。

💡 推荐理由: 首次系统量化了时间概念漂移对Android恶意软件检测对抗鲁棒性的影响，为长期部署的检测系统提供了关键的鲁棒性评估视角。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sihui Dai, Saeed Mahloujifar, Prateek Mittal

深度神经网络对对抗性扰动输入存在脆弱性，对抗训练是一种常用的防御手段，其效果受到模型架构的影响。以往研究探讨了改变模型宽度和深度对鲁棒性的影响，但尚未系统研究使用可学习参数化激活函数（PAF）的影响。本文旨在探究PAF是否能在对抗训练中提升鲁棒性。作者首先提出一个问题：改变激活函数形状能否提高鲁棒性？为此，他们选取了一组可调参数的PAF，能够独立控制负输入、接近零输入和正输入区域的行为。使用这些PAF，在固定形状参数下进行对抗训练，发现各个区域都会影响鲁棒性，但仅在某些区域（接近零和正输入）的调整能优于ReLU。随后，他们将可学习PAF与对抗训练结合，分析鲁棒性能。结果表明，激活函数的选择显著影响训练模型的鲁棒性，只有特定PAF（如平滑PAF）能在ReLU基础上显著提升鲁棒性。总的来说，该工作凸显了激活函数在对抗训练模型中的重要性。

💡 推荐理由: 激活函数的选择常被忽视，本文首次系统证明可学习参数化激活函数能显著提升对抗鲁棒性，为设计更鲁棒的神经网络架构提供了新方向。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shuo Wang 0012, Hongsheng Hu, Jiamin Chang, Benjamin Zi Hao Zhao, Minhui Xue 0001

该论文提出了一种名为 LACMUS（Latent Concept Masking for Robustness）的通用鲁棒性增强方法，旨在提升深度神经网络（DNN）对对抗攻击和分布偏移的鲁棒性。作者认为，DNN 对对抗扰动和分布漂移的敏感性源于模型过度拟合数据集中的非共同概念（non-common concepts），导致依赖特定学习实例而增加脆弱性。LACMUS 通过将高维数据映射到潜在概念空间，识别并导航“非共同概念”的模式，然后应用概念掩蔽策略选择性遮蔽数据特征，迫使模型基于更广泛的信息进行决策，从而增强决策鲁棒性。该方法是一种攻击无关（attack-agnostic）的框架，采用概念级增强（concept-wise augmentation）来提升模型对多种对抗、语义和分布挑战的鲁棒性。论文贡献包括：开发了鲁棒性增强工具、提供了将数据映射到潜在概念空间的机制、识别概念级误分类模式的策略、以及利用潜在概念的新颖数据增强模块。实验在 MNIST、CIFAR-10、ImageNet 和 CelebA 数据集上进行，验证了 LACMUS 在增强模型弹性和泛化能力方面的有效性，即使训练数据稀缺时也有效。此外，论文向研究社区提供了增强后的数据集，以支持模型鲁棒性训练。

💡 推荐理由: 该方法提供了一种通用、攻击无关的 DNN 鲁棒性增强技术，无需先验对抗知识，可提升模型对多种扰动和分布变化的防御能力，对安全防御中模型加固具有潜在价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shang Shang, Ruiqi Wang, Ruijie Qi, Hao Li, Yingxiao Xiang, Yepeng Yao, Zhengwei Jiang

本文提出了一种名为 PhishSigma++ 的恶意邮件检测方法，旨在解决现有检测器过度依赖易变的文本特征、在对抗性文本操纵下性能急剧下降的问题。研究背景是随着 AI 生成内容（AIGC）的发展，攻击者具备了更丰富的语言能力和逃避技术。核心洞察是：即使攻击者修改表面文本，功能意图仍会约束实体间的关系，这些关系是相对不变的信号。方法上，PhishSigma++ 借鉴了 Sigma 规则的思想，但将其推广到基于实体关系的检测。它从 RFC822 邮件中提取 40 种类型的实体类，计算 5 种跨类型关系以构建类型化邮件图，并使用粒子群优化（PSO）选择稀疏判别掩码，支持分类和类型级证据总结。在 29,142 条消息上，PhishSigma++ 在干净数据上达到 0.9675 F1 分数，在非自适应 Good Word 填充攻击（rho=0.8）下保持 0.9579 F1，而基于 token 的贝叶斯过滤器崩溃至 0.0243，DistilBERT 钓鱼检查点降至 0.7284。相比传统 Sigma 规则，PhishSigma++ 提供了更高的检测率、更广泛的 relational invariance 覆盖和数据驱动的特征选择。此外，阈值化的类型关系分数编码了 Sigma 风格字段条件的有效片段，将手工规则逻辑和学习到的关系掩码统一到单邮件框架中。

💡 推荐理由: 该研究揭示了对抗性文本操纵下邮件检测的脆弱性，并提出了基于实体关系的鲁棒检测方法，对安全运营中提升钓鱼邮件检测的对抗鲁棒性具有参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Brody Kutt, William Hewlett, Oleksii Starov, Yuchen Zhou

本文提出了一种名为“Innocent Until Proven Guilty (IUPG)”的新型深度学习训练框架，旨在解决传统分类器（使用分类交叉熵损失）在真实世界环境中面临的三个关键问题：对分布外输入给出过度自信的后验概率、对对抗性噪声的敏感性以及因分布偏移导致的性能下降。作者认为这些问题的核心缺陷是模型无法有效处理输入中的分布外内容。IUPG框架通过在输入空间中原型化训练数据簇或类别，并独特地利用噪声和固有随机类来发现所建模类别的噪声鲁棒、唯一可识别的特征。在评估中，作者使用了学术计算机视觉数据集以及用于恶意软件分类的真实世界JavaScript和URL数据集。实验结果表明，与相同拓扑结构、使用分类交叉熵训练的基线网络相比，IUPG框架在测试数据上取得了良好的分类性能，减少了因近期偏差导致的性能损失，降低了噪声样本上的误报率，并在多种基于噪声的攻击模拟中降低了脆弱性。据作者所知，这是首个展示在恶意软件黑盒附加攻击上显著降低脆弱性的工作。通过应用快速梯度符号法（FGSM），作者展示了将IUPG与现有对抗学习技术结合的潜力，并取得了显著更优的性能。该框架具有通用性，可用于任何原本可以使用分类交叉熵训练的网络拓扑。

💡 推荐理由: 该工作针对恶意软件检测中常见的分布外样本和对抗攻击问题，提出了一种增强鲁棒性的训练框架，有助于提升安全模型的防御能力。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Temoor Ali, Shehel Yoosuf, Mouna Rabhi, Mashael Al Sabah, Hao Yun

该论文针对住宅代理检测问题，提出了一种超越传统RTT（往返时间）特征的对抗鲁棒两层级检测架构。住宅代理常被用于隐匿恶意流量，传统基于RTT的检测方法易受对抗性攻击。本文设计了两层级检测系统：第一层基于轻量级特征快速筛选可疑流量，第二层采用更鲁棒的深度模型进行精确分类，并引入对抗训练增强对逃避攻击的抵抗力。实验表明，该方法在保持高检测率的同时，显著提升了对抗样本下的鲁棒性。研究为代理检测领域提供了新的思路，适合安全运维人员及入侵检测研究者参考。

💡 推荐理由: 住宅代理检测是防御隐匿攻击的关键，传统RTT方法易被绕过，本文提出的对抗鲁棒架构可提升检测系统在实际对抗环境下的可靠性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#adversarial-robustness

How Reliable Is Your Jailbreak Judge? Calibration and Adversarial Robustness of Automated ASR Scoring

Exposing the Illusion of Erasure in Knowledge Editing for LLMs

A Red-Team Study of Anthropic Fable 5 & Opus 4.8 Models

Reinforcement Learning Disrupts Gradient-Based Adversarial Optimization

Categorical Robustness Assessment for Machine Learning based Network Intrusion Detection Systems

Superspace Concentration and Adversarial Robustness in Quantum Algorithms

Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models

Density Boosts Everything: A One-stop Strategy for Improving Performance, Robustness, and Sustainability of Malware Detectors.

Defending Jailbreak Attacks on Large Language Models via Manifold Trajectory Kinetics

Black-box, Adaptive, Efficient, Transferable, Harmful, Applicable... Attacks Are All You Need to Break LLMs

On Improving Robustness of Deepfake Image Detectors

ReasonBreak: Probing Vulnerabilities in Reasoning-Enabled Vision-Language-Action Models for Autonomous Driving

Quantum-Enhanced Adversarial Robustness in Artificial Intelligence

SAMark: A Self-Anchored Text Watermarking with Paragraph-Level Paraphrase Robustness

Adversarial Vulnerability Under Temporal Concept Drift: A Longitudinal Study of Android Malware Detection

Parameterizing Activation Functions for Adversarial Robustness.

LACMUS: Latent Concept Masking for General Robustness Enhancement of DNNs.

PhishSigma++: Malicious Email Detection with Typed Entity Relations

Innocent Until Proven Guilty (IUPG): Building Deep Learning Models with Embedded Robustness to Out-Of-Distribution Content.

Beyond RTT: An Adversarially Robust Two-Tiered Approach For Residential Proxy Detection.