#ai-security

共收录 2 条相关安全情报。

← 返回所有主题
推荐 9.5
Conf: 50%
👥 作者: Cheng'an Wei, Yeonjoon Lee, Kai Chen 0012, Guozhu Meng, Peizhuo Lv

本文提出了一种针对预训练模型的新型后门攻击——混叠后门攻击。研究背景是现有后门攻击通常依赖显式的、可感知的触发器(如图像中的特定图案或文本中的特定token),这些触发器容易通过异常检测或预处理(如输入变换)被识别。作者观察到,预训练模型在低分辨率或下采样过程中会产生特征混叠(aliasing)现象,即高频信息与低频信息叠加导致的失真。利用这一特性,攻击者可以将触发器设计为与混叠效应深度融合的隐式模式,使得即使在输入被缩放、裁剪或压缩后,后门依然保持活性,且不会留下明显的视觉/统计异常。核心方法包括:1)分析预训练模型(如ResNet、ViT)在下采样层中混叠的敏感度;2)针对该敏感度设计优化后的频域触发器,使模型将混叠区域与目标标签关联;3)在微调阶段注入后门,攻击成功率超过95%,而干净数据准确率下降不到1%。主要贡献在于首次揭示了混叠作为后门载体,具有高隐蔽性和鲁棒性;并通过大量实验证明该攻击可绕过现有防御(如Neural Cleanse、STRIP、Frequency-based detection)。这篇论文适合AI安全研究员、预训练模型部署团队和安全审计人员阅读,以理解新型攻击面并开发对应的防御策略。

💡 推荐理由: 混叠后门攻击利用了预训练模型中固有但常被忽视的物理现象,攻击难以被传统输入清洗或异常检测捕获,对依赖预训练模型的AI系统构成隐秘威胁。

🎯 建议动作: 研究跟进,评估现有模型对混叠后门的脆弱性。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ziming Zhang, Li Li, Guorui Feng, Hanzhou Wu, Xinpeng Zhang

大型语言模型(LLM)因其强大的推理能力被广泛部署于多种场景,但同时也面临被滥用的风险。为了确保模型所有权,通常采用水印技术。然而,现有大多数水印方法仅对模型的输出分布进行表层修改,导致水印容易受扰动或去除。针对这一挑战,本文提出了一种名为冗余思维链(R-CoT)的推理层水印框架,将水印嵌入模型的推理路径中。R-CoT 基于 GRPO(分组相对策略优化)设计了一种双轨迹优化机制,使原生推理路径和水印推理路径能够在共享参数空间内共存,从而将水印内化为一种独特的推理策略。这样一来,水印被嵌入模型稳定的推理路径中,避免了因输出级扰动(如文本后处理、同义词替换等)导致水印失效的问题。实验结果表明,与现有方法相比,R-CoT 在保持高水印有效性的同时具有极强的鲁棒性。在微调等后训练操作下,其真阳性率(TPR)始终保持在 95% 以上,仅出现轻微下降。本文的主要贡献在于:1) 首次在推理层嵌入水印,而非输出层;2) 提出双轨迹优化机制实现水印与原生推理策略的共存;3) 实验证明该方法对微调等操作具有高度鲁棒性。该研究适合 LLM 安全研究人员、模型部署方以及关注知识产权保护的从业者阅读。

💡 推荐理由: R-CoT 提供了一种新型推理层水印方法,相比传统表层水印更鲁棒,能有效防止模型被微调或扰动后水印失效,对 LLM 的版权保护和溯源具有重要实践意义。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)