#adversarial-training

共收录 6 条相关安全情报。

← 返回所有主题
👥 作者: Luoyu Chen, Weiqi Wang, Zhiyi Tian, Chenhan Zhang, Feng Wu, Jianhuan Huang, Ahmed Asiri, Shui Yu

该论文针对大型语言模型(LLM)面对越狱提示(jailbreak prompts)时的安全对齐问题展开研究。现有安全引导(safety steering)方法在测试时通过激活干预将越狱激活引导至拒绝区域,同时保持良性功能,但这些方法本质上是监督式的,且依赖于静态的有限训练集。当出现训练集中未见过的新型越狱攻击时,由于激活分布偏移(out-of-distribution),这些方法往往失效。为解决对未见越狱攻击的防御失败问题,论文提出了一种基于无监督潜在方向发现的双层对抗训练框架(Bi-level Adversarial Training),用于零样本越狱防御。在内部步骤中,通过无监督潜在方向发现,从拒绝态有害请求激活(refusal-state harmful-request activations)中外推(extrapolate)模拟多种多样的越狱激活,从而扩展对真实越狱激活子空间的覆盖范围。在外部步骤中,训练一个势诱导引导场(potential-induced steering field),将这些对抗性越狱状态推回拒绝区域,同时保持良性请求的激活不变。在三个不同规模的LLM和六个经典越狱攻击家族上评估,该方法在大多数情况下将攻击成功率(ASR)降至5%以下。训练过程中子空间覆盖率的不断提升解释了泛化能力增强的原因。该工作为LLM安全对齐提供了新的防御思路,尤其适用于应对动态演化的未知越狱攻击。

💡 推荐理由: 当前LLM安全防御多针对已知攻击,面对未知变种效果不佳。本文提出的无监督模拟加对抗训练方法能零样本泛化,显著提升对未见越狱攻击的鲁棒性,为实际部署LLM提供更可靠的安全保障。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
推荐 9.6
Conf: 50%
👥 作者: Matan Levi, Aryeh Kontorovich

本文提出了一种新颖的对抗训练方法,称为“分裂差异”(Splitting the Difference)。标准的对抗训练通常在提升模型鲁棒性的同时牺牲自然准确率,且试图为每个类别学习一个统一的决策边界来同时覆盖干净样本和对抗样本。作者反其道而行之,将每个原始类别拆分为两个独立的子类:“干净”(clean)和“对抗”(adversarial),从而将分类任务从K类扩展为2K类。虽然类别数量翻倍,但每个子类的决策边界变得简单得多,有利于模型学习。论文从理论上给出了该方法有效的条件论证,并通过实验在CIFAR-10数据集上取得了95.01%的近最优自然准确率,同时保持了显著的鲁棒性(针对多种攻击)。该方法在自然准确率要求极高的实际应用中具有优势,是对抗训练领域的一个重要创新。本文适合对深度学习鲁棒性、对抗样本防御感兴趣的研究者和工程师阅读。

💡 推荐理由: 对抗训练通常以牺牲自然准确率为代价换取鲁棒性,而本文方法在保持近最优自然准确率的同时赋予模型强鲁棒性,解决了实际部署中的关键痛点。

🎯 建议动作: 研究跟进,在内部数据集上复现并评估效果

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Yiwei Zhang, Jeremiah Birrell, Reza Ebrahimi, Rouzbeh Behnia, Jason Pacheco, Elisa Bertino

本文提出一种基于信息论的对抗训练框架WARDEN,用于提升大型语言模型(LLM)对提示注入等对抗攻击的鲁棒性。当前LLM虽经过对齐与安全训练,仍易受新型攻击策略诱导产生有害行为。现有对抗训练方法计算成本高、难以扩展。最近出现的连续对抗训练方法(如CAT、CAPO)通过在嵌入空间利用梯度扰动生成更高效且表达力强的攻击样本。WARDEN在此基础上引入分布鲁棒优化思想,使用f-散度(特别是KL散度)构建一个围绕经验训练分布的模糊集,动态重新加权对抗样本,优化该模糊集内的最坏情况对抗损失。通过凸对偶转化,目标函数简化为对数-求和-指数(log-sum-exp)形式,并包含一个动态参数控制重加权强度。实验在多个LLM和多种攻击设置下进行,结果表明WARDEN在保持模型效用(如生成流畅性、准确性)的同时,显著降低攻击成功率,且计算与效用成本与CAT、CAPO、MixAT等基线方法相当,使其成为可扩展的鲁棒对齐实用方案。该方法特别适用于需要高安全性的LLM部署场景,如聊天机器人、内容生成等。

💡 推荐理由: 该工作针对LLM对抗鲁棒性的核心挑战,提出一种计算高效且通用的训练方法,可直接降低恶意提示引发的安全风险,对安全工程师与研究者有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xiaoyun Xu, Shujian Yu, Zhuoran Liu 0001, Stjepan Picek

本文针对视觉 Transformer(ViT)在对抗攻击下的脆弱性展开系统研究。ViT 已成为现代视觉-语言模型的基础架构,但其对抗鲁棒性不足,需要专门的对抗训练(AT)策略。作者首先指出现有最先进的 AT 方法(如 Generalist 和 DBAT)与 ViT 存在显著不兼容性。接着,论文从互信息(MI)角度进行理论分析,证明在基于自编码器的自监督预训练中,对抗样本与其潜在表示之间的互信息应通过导出的 MI 界限进行约束。基于此洞察,作者提出一种自监督 AT 方法 MIMIR,该方法通过掩码图像建模和自编码器,引入互信息惩罚项来增强对抗预训练。在 CIFAR-10、Tiny-ImageNet 和 ImageNet-1K 上的大量实验表明,MIMIR 能够持续提升自然准确率和鲁棒准确率,在 ImageNet-1K 上全面超越现有最先进方法。此外,MIMIR 对未知攻击和常见损坏数据表现出卓越的鲁棒性,还能抵御完全知晓防御机制的自适应攻击。代码和训练模型已开源。本研究适合对抗机器学习、视觉安全领域的研究人员和工程师阅读。

💡 推荐理由: ViT 在视觉任务中广泛应用,但对抗鲁棒性不足。MIMIR 提供了一种新的自监督对抗训练范式,通过互信息约束显著提升了鲁棒性,且对未知攻击有效,具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Wenjing Duan, Qi Zhou, Yuanfan Li

机器生成文本(MGT)检测对于规范在线信息生态系统至关重要,但现有检测器在小样本设置下表现不佳,且容易受到对抗性人性化攻击。本研究从威胁建模角度出发,研究攻击者视角下的检测器漏洞。为此,作者提出REACT(RAG引导攻击者强化对比小样本检测器)框架,这是一种对抗训练框架,能同时提升小样本检测性能和对抗攻击的鲁棒性。REACT将人性化攻击者与目标检测器耦合:攻击者利用检索增强生成(RAG)制作高度类人的对抗样本以逃避检测;检测器则通过对比学习目标从这些对抗样本中学习,稳定小样本表示学习并增强鲁棒性。攻击者和检测器交替更新以实现协同进化。在4个数据集、4种样本大小和3个随机种子的实验表明,REACT相比8个最先进检测器,平均检测F1提升4.95个百分点,并在4种强攻击下平均攻击成功率降低3.66个百分点。

💡 推荐理由: 该研究为安全防御者提供了一种主动对抗策略,通过对抗训练提升检测模型对人性化文本生成攻击的鲁棒性,对反虚假信息、内容审核等场景具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 1.5
Conf: 50%
👥 作者: Mengnan Zhao, Lihe Zhang, Bo Wang, Tianhang Zheng, Hong Zhong, Geyong Min

本文针对快速对抗训练(FAT)中存在的两个核心问题展开研究:(1)灾难性过拟合(CO),即模型过度拟合训练时使用的对抗样本,导致对未见攻击泛化能力差;(2)鲁棒性与准确率之间的权衡,即在提高鲁棒性的同时往往导致干净样本上的性能显著下降,且随着扰动预算增加而加剧。作者首先通过将样本按置信度分组,系统分析了引导强度(扰动和监管水平)如何影响模型性能,发现低置信度样本是引发CO和鲁棒-准确率权衡的主要因素。基于此洞察,提出了一种分布感知动态指导(DDG)策略,该策略根据样本在真实类别上的置信度动态调整扰动幅度和监督信号:一方面,根据置信度缩放扰动大小,引导样本朝向一致的决策边界,同时减少对虚假相关性的学习;另一方面,基于每个样本的预测状态动态调整监督信号强度,避免过度强调错误信号。此外,为缓解动态指导可能带来的梯度不稳定,设计了加权正则化约束。在标准基准测试(如CIFAR-10、CIFAR-100等)上的广泛实验表明,DDG能有效缓解CO和鲁棒-准确率权衡,在保持较高干净准确率的同时显著提升鲁棒性。本文适用于对对抗训练、模型鲁棒性及深度学习安全感兴趣的研究人员。

💡 推荐理由: 提出了一种无需额外计算成本的动态指导策略,同时解决了快速对抗训练中的灾难性过拟合和鲁棒-准确率权衡问题,对提升实际部署模型的对抗鲁棒性具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)