#adversarial-defense

共收录 5 条相关安全情报。

← 返回所有主题
👥 作者: Tri Cao, Yulin Chen, Hieu Cao, Yibo Li, Khoi Le, Thong Nguyen, Yuexin Li, Yufei He, Yue Liu, Shuicheng Yan, Bryan Hooi

本文针对 Web Agent 在开放网络环境中面临的提示注入攻击风险,提出了一种鲁棒防御模型 WARD。Web Agent 可通过与网站交互自动完成在线任务,但其依赖的 HTML 内容或视觉界面易被嵌入恶意指令,导致提示注入攻击。现有防护模型存在泛化能力差(对未见领域及攻击模式识别率低)、对良性内容误报率高、引入额外延迟影响部署效率、且难以应对随时间演化的对抗攻击等问题。为解决这些局限,作者构建了 WARD-Base 大规模数据集(包含来自 719 个高流量 URL 和平台的约 17.7 万样本),以及专门针对防护模型本身的提示注入攻击数据集 WARD-PIG。在此基础上,提出 A3T(自适应对抗攻击训练框架),通过基于记忆的攻击者与防护者协同进化过程迭代增强 WARD 的鲁棒性。大量实验表明,WARD 在分布外基准上实现了近乎完美的召回率,同时保持低误报率以保障 Agent 可用性;在遭遇针对防护模型的攻击和自适应攻击时,仍能在显著分布偏移下保持鲁棒;并且可与 Agent 并行运行,不引入额外延迟。该研究为 Web Agent 的安全部署提供了实用且高效的防护方案。

💡 推荐理由: 随着 Web Agent 在自动化任务中广泛应用,提示注入攻击成为严峻威胁。WARD 提出了首个兼顾高检测率、低误报、高效率和抗对抗攻击的防护模型,对保障 LLM 驱动的 Agent 安全至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chengshuai Zhao, Zhen Tan, Dawei Li, Zhiyuan Yu, Huan Liu

该论文针对大视觉语言模型(LVLM)在多模态网页数据上遭受的未授权爬取和训练问题,提出了一种名为MMGuard的主动防御方法。现有对策如机器遗忘和水印均属于事后处理,无法在知识产权侵犯发生前进行保护。MMGuard通过生成难以学习的样本(unlearnable examples),向多模态数据注入人眼不可察觉的扰动。该扰动利用LVLM的学习动态,最小化训练损失,从而创建优化捷径,使模型在训练时过度拟合噪声,而在推理时因扰动消失导致下游任务性能严重下降。为加强防御,MMGuard进一步引入跨模态绑定破坏机制,策略性地转移LVLM的注意力,强制噪声与训练目标之间产生虚假相关性,并从理论上证明了其有效性。此外,采用集成学习策略增强跨模型迁移能力,使扰动在不同LVLM架构间具有通用性。在9个开源LVLM和6个数据集上的实验表明,MMGuard在白盒、灰盒和黑盒威胁模型下均能提供有效、隐蔽且鲁棒的防护,证明其在主动防御未授权微调方面具有机制性优势。该研究适合关注数据版权保护、对抗性机器学习和多模态模型安全的研究人员与从业者阅读。

💡 推荐理由: 数据所有者面临多模态数据被未授权微调的严重风险,MMGuard提供了首个主动防御方案,可在侵权发生前阻止模型从数据中学习,对版权保护和隐私维护具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Zheng Lin, Zhenxing Niu, Haoxuan Ji, Haichang Gao

本文提出了一种针对大型语言模型 (LLM) 的保证性越狱防御方法——Disrupt-and-Rectify Smoothing (DR-Smoothing)。该方法受对抗防御领域中去噪平滑技术的启发,将两阶段提示处理方案(先干扰输入提示,再修正)集成到传统平滑防御框架中。与先前仅干扰的方法相比,本方法通过将分布外(out-of-distribution)的干扰提示恢复为分布内形式,降低了LLM行为不可预测的风险。此外,这种两阶段方案在越狱防御中实现了无害性与有用性之间的有效平衡。作者给出了通用平滑框架的理论分析,提供了防御成功概率的紧界以及对干扰强度的要求。DR-Smoothing能够防御令牌级和提示级的越狱攻击,包括在已建立和自适应攻击场景下。大量实验表明,该方法在无害性和有用性两方面均超越了当前最先进的防御方法。本文适合LLM安全研究人员、AI防御系统开发者以及关注生成模型鲁棒性的从业者阅读。

💡 推荐理由: 该工作为LLM越狱防御提供了理论保证和实用方法,平衡了安全性与可用性,对提升生成式AI系统的可信赖性有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Avinash Awasthi, Pritam Vediya, Hemant Miranka, Ramesh Babu Battula, Manoj Singh Gaur

该论文提出了PANDORA,一种针对边缘物联网设备的轻量级对抗防御方法。边缘物联网设备资源受限,容易受到对抗样本攻击,导致机器学习模型失效。现有防御方法计算开销大,难以部署在边缘设备上。PANDORA利用不确定性感知的度量学习,通过训练模型区分正常样本和对抗样本的不确定性特征,从而在低计算成本下实现有效防御。该方法在多个数据集上进行了实验,证明了其在保持高检测率的同时,显著降低了计算开销,适合边缘部署。论文的主要贡献包括:提出轻量级对抗防御框架、不确定性感知度量学习机制,以及在真实边缘设备上的性能验证。

💡 推荐理由: 边缘物联网安全至关重要,PANDORA提供了实用的低开销防御方案,能保护关键设备免受对抗攻击。

🎯 建议动作: 阅读原文,评估方法是否适配自身场景

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Wei Zhao, Zhe Li, Yige Li, Jun Sun 0001

多模态大语言模型(MLLMs)在跨模态理解方面表现出色,但其视觉输入模块容易受到对抗攻击,即使文本安全机制完善。这些漏洞源于两个核心弱点:视觉表征的连续性允许基于梯度的攻击,以及文本安全机制无法充分迁移到视觉内容。本文提出 Q-MLLM,一种集成两级向量量化的新颖架构,通过创建离散瓶颈来抵御对抗攻击,同时保持多模态推理能力。该方法在像素块级和语义级对视觉表征进行离散化,阻断攻击路径并弥合跨模态安全对齐鸿沟。两阶段训练策略确保了鲁棒学习并维持模型效用。实验表明,Q-MLLM 在防御越狱攻击和有毒图像攻击方面显著优于现有方法,对越狱攻击实现了 100% 的防御成功率(仅有一个可争议案例除外),同时在多个效用基准上保持竞争性能,且推理开销极低。这项工作将向量量化确立了一种有效的防御机制,无需昂贵的专门安全微调或检测开销。

💡 推荐理由: 为多模态大模型提供了一种轻量、高效的对抗防御方案,无需额外安全微调即可实现近乎完美的越狱攻击防御,对提升 AI 系统安全性具有直接实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)