👥 作者: Matan Ben-Tov, Daniel Deutch, Nave Frost, Mahmood Sharif
该论文提出了CaFA(Cost-aware Feasible Attacks)系统,旨在评估神经网络表格分类器在实际应用中对抗攻击的鲁棒性。表格数据具有结构化特征和复杂的相互关系,现有对抗攻击方法往往忽略攻击的可行性(即对抗样本在问题空间中是否可实现)以及攻击者的成本(如扰动特征数量和幅度)。CaFA通过两个核心组件解决这些问题:(1)TabPGD算法,一种针对表格数据定制的投影梯度下降变体,能够生成特征空间中的对抗扰动,同时考虑表格特征的异质性(如分类和连续特征);(2)利用数据库技术中自动挖掘的完整性约束(如函数依赖、否定约束等)将特征空间的对抗样本投影到满足这些约束的可行区域,从而确保生成的对抗样本在现实世界中可实现。在三个数据集(如信用卡欺诈检测、贷款审批等)和两种神经网络架构上的实验表明,CaFA相比基线方法(如FGSM、PGD等)具有更高的可行成功率(即被误分类且满足约束的样本比例),同时扰动的特征数量更少、幅度更低,使得攻击更隐蔽且成本更低。此外,CaFA挖掘的约束在声音性和完备性方面优于先前工作。论文还开源了CaFA系统,希望为机器学习工程师提供通用工具,评估模型对可实现攻击的鲁棒性,从而提升部署模型的信任度。
💡 推荐理由: 表格数据在金融、医疗等领域广泛使用,但现有对抗攻击方法常忽视现实可行性。CaFA通过数据库约束确保攻击可实现,为评估表格分类器真实鲁棒性提供了更严格的方法,对构建可信AI具有直接价值。
🎯 建议动作: 研究跟进:评估CaFA对自身表格模型的测试效果,并考虑将其纳入鲁棒性评估流程。
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Thomas Yurek, Licheng Luo, Jaiden Fairoze, Aniket Kate, Andrew Miller 0001
该论文针对多方计算(MPC)在实际部署中缺乏鲁棒性的问题,即无法保证在具有间歇性延迟的网络中实现输出交付(包括离线阶段)。尽管已有理论构造能在此类环境下提供鲁棒性,但理论与实践之间存在差距,主要原因是缺乏高效的可验证/完全秘密共享(VSS/CSS)协议。现有CSS协议要么需要实践中难以实现的广播信道,要么引入至少与参与者数量平方成正比的计算和通信开销。为此,本文提出了hbACSS,一套异步完全秘密共享协议,具有最优弹性,且计算和通信开销均为(拟)线性。为构建hbACSS,作者还开发了hbPolyCommit,一种高效的多项式承诺方案,其计算和通信开销与多项式次数成(拟)线性,且无需可信设置。作者实现了hbACSS协议,并进行了广泛的实用性分析,观察到协议随参与者数量增加而良好扩展。特别地,他们将hbACSS用于生成MPC输入掩码——这一有用原语先前在实践中只能以非鲁棒方式生成。该工作弥合了理论与实践的鸿沟,为构建鲁棒、可扩展的MPC系统提供了关键基础组件。
💡 推荐理由: 该工作填补了MPC鲁棒性在理论高效方案与实际可用实现之间的空白,提出的hbACSS协议为构建容错、可扩展的MPC系统提供了关键构建块,对提升分布式安全计算的实际部署价值显著。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yifan Liao, Zongmin Zhang, Zhen Sun, Yuhui Sun, Xinhu Zheng, Xinlei He
本文针对自动语音识别(ASR)系统的对抗鲁棒性展开研究。现有对抗攻击直接在波形域添加噪声,存在两个主要局限:一是对黑盒ASR系统的迁移性差,二是易被专门防御波形扰动的机制缓解。为此,作者提出了一种基于代理模型的Clean-Referenced Feature-Vocoder Attack(CR-FVA),将对抗扰动空间从原始波形转移到自监督学习(SSL)表示空间。具体而言,攻击者首先在代理ASR模型(如Whisper-small)的SSL特征层上计算对抗梯度,并扰动更具泛化性的声学-音素表示,从而减少对代理模型特定波形梯度的依赖,提升跨系统迁移性;然后利用声码器(vocoder)将扰动后的SSL特征重构为类语音波形信号,使得最终对抗样本看起来更像自然语音,从而绕过基于波形边界的防御。实验表明,仅以公开的Whisper-small为代理模型,CR-FVA在多个黑盒ASR模型上实现了相对最佳基线平均+26.6%的词错误率(WER)提升;针对多种训练防御(如对抗训练、频谱压缩等),WER提升幅度达+36.2%。该研究揭示了当前ASR鲁棒性评估中的一个盲区:大多数防御仅关注波形域扰动,而基于更高层特征的攻击能轻易绕过。本文工作适合ASR安全研究者、对抗机器学习从业者以及语音系统防御工程师阅读,有助于理解现有防御的不足并设计更全面的鲁棒性评估方案。
💡 推荐理由: 该攻击方法揭示了ASR系统在特征层面的新攻击面,能有效绕过现有基于波形扰动的防御,并展现出强黑盒迁移性,对语音助手、会议转录等关键应用的安全性构成潜在威胁,促使防御者重新审视鲁棒性评估标准。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Malia Barker, Bishal Lakha, Edoardo Serra, Francesco Gullo
该论文研究了大型语言模型(LLM)在算术推理任务中对数值变化的鲁棒性问题。尽管LLM在基准测试中表现优异,但已有研究表明其对数值变化敏感:同一问题在不同数值下可能失败。现有方法多依赖模板或人工约束,局限性较大。为此,作者提出一种自动化的数值重映射攻击算法,能够生成保留原始推理程序的小规模数值变换,从而测试模型的泛化能力。该方法首先从问题中提取符号表示,生成受约束的数值重映射,重新计算正确答案,并通过LLM生成的编辑计划实现确定性变换。通过阶段验证和高置信度审计确保攻击可靠性,使管道可扩展。在GSM8K、MAWPS和MultiArith三个数据集上对DeepSeek-R1(70B)、Gemma4(31B)和GPT-OSS(120B)进行了评估。结果显示,在GSM8K上,已完成运行的模型条件准确率下降了12.16至25.82个百分点,而MAWPS和MultiArith则非常稳定,攻击后准确率仍接近或超过98%。这表明数值重映射鲁棒性高度依赖于数据集结构:GSM8K即使在保留推理程序和重计算答案的情况下仍然脆弱,而更短、更规整的数据集则更为鲁棒。该工作为评估LLM的算术推理泛化能力提供了一种新方法,对安全从业者理解LLM在数值推理任务中的局限性具有参考价值。
💡 推荐理由: 本方法揭示了LLM在算术推理中仍存在数值泛化脆弱性,即使使用小幅度、保留推理逻辑的数值变化也能导致准确率显著下降,对依赖LLM进行数学推理的应用场景构成潜在风险。
🎯 建议动作: 研究跟进,评估自身LLM对数值变化的鲁棒性,并在关键场景中考虑添加外部验证。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hanlei Zhang, Yijie Bai, Yanjiao Chen, Zhongming Ma, Wenyuan Xu 0001
本文提出了一种名为BARBIE的鲁棒后门检测方法,旨在解决深度学习模型共享中的安全风险。后门攻击会使模型在正常样本上表现正常,但在含有特定触发器的样本上产生恶意行为。现有检测方法利用良性模型与后门模型在潜在表示上的可分离性(latent separability),通过聚类或距离度量来区分,但这些方法容易被自适应攻击(adaptive attacks)绕过。BARBIE提出了一种新的度量指标——相对竞争分数(Relative Competition Score, RCS),通过刻画潜在表示对模型输出的主导性来表征可分离性,该指标对各种后门攻击具有鲁棒性,且难以被攻击者操控。该方法无需访问任何良性或后门样本,仅通过反转每个标签的两组潜在表示(一组反映良性模型的正常表示,另一组放大后门模型的异常表示)来计算RCS。基于RCS,BARBIE构建了一系列指标来全面反映后门模型与良性模型的差异。实验在4个数据集上对超过10,000个模型进行了验证,覆盖14种后门攻击类型,包括针对潜在可分离性的自适应攻击。与7种基线方法相比,BARBIE在源不可知攻击(source-agnostic)上平均真阳性率提升17.05%,源特定攻击提升27.72%,样本特定攻击提升43.17%,干净标签攻击提升11.48%,同时保持更低的假阳性率。该研究为模型供应链安全提供了有效的防御工具。
💡 推荐理由: 后门攻击威胁深度学习模型共享生态,现有检测方法易被自适应攻击绕过。BARBIE通过新颖的RCS度量实现鲁棒检测,显著提升真阳性率并降低误报,为安全部署模型提供了可靠手段。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jianwei Tai
该论文研究了视觉-语言-动作(VLA)模型在机器人部署中的能力与鲁棒性之间的理论权衡。VLA模型在干净输入上表现出高成功率(如OpenVLA-7B在LIBERO基准上超过95%),但在微小对抗扰动下性能急剧下降(例如16/255的PGD攻击使成功率降至5%以下)。现有经验性防御方法虽能恢复部分鲁棒性,但会牺牲干净准确率,且缺乏理论下界。作者通过信息论方法证明了:对于任何离散动作的VLA策略,能力(策略动作与理想动作的互信息)与鲁棒性(对抗扰动下保留的互信息,扣除平凡信道泄露)之和受限于一个与策略无关的预算:任务熵加对抗信道容量。该证明基于数据处理不等式和互信息非负性。像素级界限与策略无关但较松(约10^3 nats);而编码器特定推论可在每个实验上收紧到约86-156 nats(在OpenVLA上,epsilon=8/255时)。作者在252个闭式高斯VLA单元和48个OpenVLA-7B×LIBERO×PGD单元上验证了该界限,零违反。编码器界限还诊断了防御在信道中的干预位置:输入侧防御(JPEG-50)将编码器预算移动+41到+101 nats(epsilon∈{2,4,8,16}/255时),而LLM侧防御(rank-16 LoRA)移动不超过9%(epsilon=8/255时仅0.7%)。论文建议将编码器特定松弛作为与原始鲁棒性并行的诊断轴,并开源了所有代码和结果。
💡 推荐理由: VLA模型直接控制物理机器人,对抗攻击可造成实际安全风险。该理论界限揭示了能力与鲁棒性的固有矛盾,为设计更可靠的机器人策略提供了理论基础,帮助防御者理解现有防御方法的局限性。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Lujia Shen, Yuwen Pu, Shouling Ji, Changjiang Li, Xuhong Zhang 0002, Chunpeng Ge 0001, Ting Wang 0006
该论文关注Transformer架构的大型语言模型(如BERT、GPT)在自然语言处理中的广泛应用及其对文本对抗攻击的脆弱性。现有防御方法如对抗训练资源消耗大,而防御性dropout等保护有限。作者提出了一种名为“动态注意力”的新方法,专门针对Transformer架构设计,无需下游任务知识且不增加额外成本。动态注意力包含两个模块:1) 注意力修正:通过掩盖或减弱选定令牌的注意力值;2) 动态建模:动态构建候选令牌集合。大量实验表明,该方法能显著减轻对抗攻击的影响,在常用对抗攻击上比之前的方法性能提升高达33%。动态注意力的模型级设计使其易于与其他防御方法(如对抗训练)结合,进一步提升鲁棒性。此外,与其他动态建模方法相比,动态注意力保留了原始模型的最优鲁棒性空间。
💡 推荐理由: 提供了一种轻量级、无需额外成本的对抗防御方法,可直接嵌入Transformer模型,显著提升鲁棒性,且易于与其他防御技术结合,对保护LLM落地应用有参考价值。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hosam Alamleh, Damir Pulatov
本文针对多无人机系统在GNSS信号退化、多路径效应、非视距接收、垂直漂移及有意干扰等复杂环境下,实时三维定位可靠性下降的问题,提出了一种去中心化、轻量级的3D位置精化层。该方法通过融合每架无人机自身的局部估计、邻居共享的状态摘要以及无人机间的距离或邻近约束,实现不确定性感知的邻域融合。具体而言,每架无人机根据自身协方差报告对先验赋予权重,并根据链路质量、测距不确定性和学习到的信任分数对邻居约束加权。为支持实际部署,框架显式处理了冷启动和临时定位丢失场景,通过膨胀或替代弱先验,使可信的邻域约束能够引导和稳定估计,直至绝对感知恢复。为减轻故障或恶意节点的影响,每架无人机应用基于时间平滑的局部距离一致性检查,对报告位置与观测距离不兼容的邻居降低权重或排除。模拟实验在包含10架无人机的3D空间中进行,结果表明所提精化层在冷启动期间显著降低平均定位误差,在局部估计稳定后保持竞争力,并在恶意节点比例增加时相比无信任的融合保持更低的误差。研究建议将该方法作为无人机群在挑战环境中的实用韧性层。
💡 推荐理由: 该研究为多无人机系统在GNSS拒止或受干扰环境下的可靠协作定位提供了轻量级的韧性方案,直接关乎无人机集群防碰撞、编队飞行等安全关键任务。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Matan Levi, Aryeh Kontorovich
本文提出了一种新颖的对抗训练方法,称为“分裂差异”(Splitting the Difference)。标准的对抗训练通常在提升模型鲁棒性的同时牺牲自然准确率,且试图为每个类别学习一个统一的决策边界来同时覆盖干净样本和对抗样本。作者反其道而行之,将每个原始类别拆分为两个独立的子类:“干净”(clean)和“对抗”(adversarial),从而将分类任务从K类扩展为2K类。虽然类别数量翻倍,但每个子类的决策边界变得简单得多,有利于模型学习。论文从理论上给出了该方法有效的条件论证,并通过实验在CIFAR-10数据集上取得了95.01%的近最优自然准确率,同时保持了显著的鲁棒性(针对多种攻击)。该方法在自然准确率要求极高的实际应用中具有优势,是对抗训练领域的一个重要创新。本文适合对深度学习鲁棒性、对抗样本防御感兴趣的研究者和工程师阅读。
💡 推荐理由: 对抗训练通常以牺牲自然准确率为代价换取鲁棒性,而本文方法在保持近最优自然准确率的同时赋予模型强鲁棒性,解决了实际部署中的关键痛点。
🎯 建议动作: 研究跟进,在内部数据集上复现并评估效果
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Xinyu Zhang, Ziping Dong, Qingyu Liu, Yuan Hong, Zhongjie Ba, Kui Ren
该论文关注鲁棒图像水印中的身份泄露问题。随着生成式AI发展,图像水印用于版权保护和所有权验证,但现有鲁棒水印方法易受两种攻击:对抗攻击(修改水印图像使解码失败)和身份泄露攻击(伪造水印图像)。作者发现,无论是经验鲁棒还是认证鲁棒的现有方法,都在增强鲁棒性时加剧了身份信息泄露(攻击者可利用可区分的特征伪造水印)。为解决此问题,论文提出W-IR,首个同时实现身份保护和鲁棒性的图像水印框架。核心方法包括:1)基于随机平滑的认证鲁棒机制,在像素级和坐标级两个变换空间上提供认证鲁棒性(利用Neyman-Pearson引理确定最优决策边界);2)基于残差信息损失的身份泄露缓解策略,通过最小化残差图像与水印图像之间的互信息,减少身份特征的泄漏。实验表明,W-IR在保持高认证准确率的同时,有效降低了身份泄露风险,在鲁棒性和身份保护之间取得了更优平衡。代码已开源。
💡 推荐理由: 揭示了鲁棒水印中的身份泄露安全风险,并提供了可认证防御方案,对保护数字内容版权和防范深度伪造至关重要。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hidde Lycklama, Lukas Burkhalter, Alexander Viand, Nicolas Küchler, Anwar Hithnawi
联邦学习(FL)面临诸多安全攻击,但学界对其根本原因及有效防御缺乏整体理解。本文系统剖析了现有定向攻击的内部机制,揭示了攻击可行的原因在于:机器学习算法对尾部数据的记忆需求对FL完整性产生重大影响——这一现象此前主要被研究为隐私问题,本文首次阐明了其对模型完整性的关联。通过分析,作者发现对客户端更新施加范数约束(如L2和L∞界)可以显著缓解某些严重攻击。然而,在安全聚合协议中高效实施这些约束面临挑战,因为加密的梯度更新无法直接验证。为此,本文提出RoFL,一种新型安全FL系统,它在安全聚合的基础上扩展了隐私保护的输入验证功能。RoFL利用密码学技术,在不暴露明文更新的前提下,对高维加密模型更新强制执行L2和L∞界约束。实验表明,RoFL在保持模型准确率的同时,能有效防御多种投毒攻击,为FL的鲁棒性提供了可证明的保障。该工作为理解FL攻击的本质及设计实用防御方案提供了理论基础和实践指南。
💡 推荐理由: 联邦学习的安全性是产业落地的关键瓶颈。本文首次将尾部记忆与模型完整性关联,并提出了可部署的安全聚合+输入验证方案,对蓝队设计鲁棒FL系统有直接指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Feiyue Xu, Hongsheng Hu, Chaoxiang He, Sheng Hang, Hanqing Hu, Xiuming Liu, Yubo Zhao, Zhengyan Zhou, Bin Benjamin Zhu, Shi-Feng Sun, Dawu Gu, Shuo Wang
本文是一篇系统化知识综述(SoK),聚焦于大语言模型(LLM)针对越狱攻击的鲁棒性问题。越狱攻击通过精心构造的对抗提示,诱使模型生成有害、不道德或违反政策的输出,对高安全性应用中的信任、合规和安全构成实际威胁。现有评估实践通常仅依赖攻击成功率等单一指标,无法全面捕捉LLM安全的多维度特性。为此,作者首先提出了越狱攻击与防御的系统分类法,梳理了当前文献中的关键见解与开放挑战。在此基础上,引入了一种统一的多维评估框架——Security Cube,用于全面评估攻击与防御技术。该框架涵盖多个评估维度,能够更准确地反映LLM的安全态势。利用Security Cube,作者对13种代表性攻击和5种防御方法进行了基准研究,清晰描绘了当前领域在越狱攻击、防御、自动评判器和LLM漏洞等方面的整体图景。基于这些评估,文章提炼了关键发现,指出了尚未解决的问题,并概述了增强LLM越狱攻击鲁棒性的有前景研究方向。该研究旨在为构建更鲁棒、可解释和可信赖的LLM系统铺平道路。代码已开源。适合安全研究人员、LLM开发者和AI治理从业者阅读。
💡 推荐理由: 该论文提供了LLM越狱攻防的系统分类法和首个多维评估框架Security Cube,有助于安全社区统一评估标准、发现现有防御盲点,对提升LLM安全性具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xiaoyun Xu, Shujian Yu, Zhuoran Liu 0001, Stjepan Picek
本文针对视觉 Transformer(ViT)在对抗攻击下的脆弱性展开系统研究。ViT 已成为现代视觉-语言模型的基础架构,但其对抗鲁棒性不足,需要专门的对抗训练(AT)策略。作者首先指出现有最先进的 AT 方法(如 Generalist 和 DBAT)与 ViT 存在显著不兼容性。接着,论文从互信息(MI)角度进行理论分析,证明在基于自编码器的自监督预训练中,对抗样本与其潜在表示之间的互信息应通过导出的 MI 界限进行约束。基于此洞察,作者提出一种自监督 AT 方法 MIMIR,该方法通过掩码图像建模和自编码器,引入互信息惩罚项来增强对抗预训练。在 CIFAR-10、Tiny-ImageNet 和 ImageNet-1K 上的大量实验表明,MIMIR 能够持续提升自然准确率和鲁棒准确率,在 ImageNet-1K 上全面超越现有最先进方法。此外,MIMIR 对未知攻击和常见损坏数据表现出卓越的鲁棒性,还能抵御完全知晓防御机制的自适应攻击。代码和训练模型已开源。本研究适合对抗机器学习、视觉安全领域的研究人员和工程师阅读。
💡 推荐理由: ViT 在视觉任务中广泛应用,但对抗鲁棒性不足。MIMIR 提供了一种新的自监督对抗训练范式,通过互信息约束显著提升了鲁棒性,且对未知攻击有效,具有重要实践价值。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zhaoxi Zhang 0001, Xiaomei Zhang 0001, Yanjun Zhang, He Zhang 0012, Shirui Pan, Bo Liu 0001, Asif Gill, Leo Yu Zhang
本文研究字符级扰动对大型语言模型(LLM)水印技术的破坏效果。水印技术被广泛用于追踪LLM生成内容,防止滥用。作者系统分析了多种字符级扰动(如拼写错误、同音替换、随机插入等)对当前主流水印方案(如基于n-gram的Aaronson水印、基于软水印的Kirchenbauer方案等)的鲁棒性影响。实验在多个开源LLM(如Llama2、OPT)上进行,结果表明,简单的字符级扰动即可显著降低水印检测的准确率,甚至完全绕过检测。作者进一步探讨了结合语义保持的对抗性扰动,发现更难防御。本文揭示了LLM水印在字符层面的脆弱性,对内容追踪与反滥用领域具有警示意义。
💡 推荐理由: LLM水印是防止AI生成内容滥用的重要手段,但本文揭示其易被字符级扰动绕过,威胁内容溯源与检测机制的有效性。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Qi Tan, Yi Zhao 0011, Laizhong Cui, Qi Li 0002, Ming Zhu, Xing Fu, Weiqiang Wang 0002, Xiaotong Lin, Ke Xu 0002
该论文针对金融交易中的欺诈检测问题,提出了一种基于双人博弈的鲁棒检测框架。传统欺诈检测模型通常面临对抗性样本攻击和概念漂移的挑战,导致检测性能下降。作者将欺诈检测建模为检测器与攻击者之间的动态博弈过程:检测器试图识别欺诈交易,而攻击者不断调整策略以逃避检测。通过引入博弈论中的纳什均衡概念,论文设计了一种交替优化算法,使检测器在对抗环境中持续提升鲁棒性。实验在多个真实交易数据集上进行,结果表明所提方法在保持高检测率的同时,显著降低了攻击成功率,优于现有基线模型。该工作为金融安全领域提供了新的理论视角和实用工具。
💡 推荐理由: 金融欺诈检测是安全关键任务,该论文引入博弈论思想提升鲁棒性,对防御对抗性攻击具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Shang Wang 0004, Tianqing Zhu, Dayong Ye, Hua Ma, Bo Liu 0001, Ming Ding 0001, Shengfang Zhai, Yansong Gao
该论文针对数据集版权保护中水印信号弱、注入率低及对抗攻击下的鲁棒性问题,提出了一种名为DIP的概率水印注入与双重验证框架。核心方法包括三部分:1) 分布感知样本选择:从数据集中均匀选择N个训练样本用于水印注入,从而保持原始数据分布;2) 概率水印注入:对选中的样本注入概率水印,即通过扰动样本特征或标签的方式嵌入不可见标记,使得水印在统计意义上可检测但难以被移除;3) 双重验证:结合基于标签的验证和基于标签分布的验证,提升所有权判定的可靠性。实验在多个图像分类数据集上评估了DIP在不同注入率、不同攻击(如剪枝、微调、后门攻击)下的表现,结果表明DIP在保持模型效用(分类准确率)的同时,显著提升了水印检测的鲁棒性和可信度。该工作主要贡献为提出了一种对弱嵌入信号不敏感的概率水印框架,并设计了双重验证机制来抵御对抗性移除。适合关注数据知识产权保护、鲁棒水印技术的研究者和工程师阅读。
💡 推荐理由: 为数据集版权保护提供了一种鲁棒的概率水印方案,解决低注入率和对抗攻击场景下传统水印易失效的问题,对防范模型窃取和数据侵权有实际意义。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Yuyou Gan, Yuhao Mao, Xuhong Zhang 0002, Shouling Ji, Yuwen Pu, Meng Han, Jianwei Yin, Ting Wang 0006
本文针对特征归因(Feature Attribution)解释方法的鲁棒性评估问题展开研究。特征归因是解释机器学习模型预测结果的一种常见技术,通过为输入特征分配重要性分数来指示其对模型输出的贡献。然而,现有研究指出,这些解释可能对输入中的微小扰动高度敏感,即存在鲁棒性问题。本文提出一个系统性的鲁棒性评估框架,用于量化特征归因解释在面对输入扰动时的稳定性。该框架首先定义了一系列鲁棒性度量指标,如最大扰动幅度下的解释变化程度,并设计了高效的优化算法来寻找最坏情况下的扰动。实验在多个数据集和多种归因方法(包括梯度类、扰动类和代理模型类方法)上进行验证。结果表明,不同归因方法的鲁棒性存在显著差异,且鲁棒性与解释的保真度、稀疏性等属性并非正相关。该工作为特征归因解释的可靠性评估提供了标准化工具,有助于理解解释方法的局限性并指导后续改进。
💡 推荐理由: 特征归因解释的鲁棒性是模型可解释性领域的关键问题,直接影响用户对AI决策的信任。本框架为评估和比较不同归因方法提供了量化标准,对安全审计、合规检查和模型调试有参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Mengnan Zhao, Lihe Zhang, Bo Wang, Tianhang Zheng, Hong Zhong, Geyong Min
本文针对快速对抗训练(FAT)中存在的两个核心问题展开研究:(1)灾难性过拟合(CO),即模型过度拟合训练时使用的对抗样本,导致对未见攻击泛化能力差;(2)鲁棒性与准确率之间的权衡,即在提高鲁棒性的同时往往导致干净样本上的性能显著下降,且随着扰动预算增加而加剧。作者首先通过将样本按置信度分组,系统分析了引导强度(扰动和监管水平)如何影响模型性能,发现低置信度样本是引发CO和鲁棒-准确率权衡的主要因素。基于此洞察,提出了一种分布感知动态指导(DDG)策略,该策略根据样本在真实类别上的置信度动态调整扰动幅度和监督信号:一方面,根据置信度缩放扰动大小,引导样本朝向一致的决策边界,同时减少对虚假相关性的学习;另一方面,基于每个样本的预测状态动态调整监督信号强度,避免过度强调错误信号。此外,为缓解动态指导可能带来的梯度不稳定,设计了加权正则化约束。在标准基准测试(如CIFAR-10、CIFAR-100等)上的广泛实验表明,DDG能有效缓解CO和鲁棒-准确率权衡,在保持较高干净准确率的同时显著提升鲁棒性。本文适用于对对抗训练、模型鲁棒性及深度学习安全感兴趣的研究人员。
💡 推荐理由: 提出了一种无需额外计算成本的动态指导策略,同时解决了快速对抗训练中的灾难性过拟合和鲁棒-准确率权衡问题,对提升实际部署模型的对抗鲁棒性具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)