#ai-security

共收录 2 条相关安全情报。

👥 作者: Cheng'an Wei, Yeonjoon Lee, Kai Chen 0012, Guozhu Meng, Peizhuo Lv

本文提出了一种针对预训练模型的新型后门攻击——混叠后门攻击。研究背景是现有后门攻击通常依赖显式的、可感知的触发器（如图像中的特定图案或文本中的特定token），这些触发器容易通过异常检测或预处理（如输入变换）被识别。作者观察到，预训练模型在低分辨率或下采样过程中会产生特征混叠（aliasing）现象，即高频信息与低频信息叠加导致的失真。利用这一特性，攻击者可以将触发器设计为与混叠效应深度融合的隐式模式，使得即使在输入被缩放、裁剪或压缩后，后门依然保持活性，且不会留下明显的视觉/统计异常。核心方法包括：1）分析预训练模型（如ResNet、ViT）在下采样层中混叠的敏感度；2）针对该敏感度设计优化后的频域触发器，使模型将混叠区域与目标标签关联；3）在微调阶段注入后门，攻击成功率超过95%，而干净数据准确率下降不到1%。主要贡献在于首次揭示了混叠作为后门载体，具有高隐蔽性和鲁棒性；并通过大量实验证明该攻击可绕过现有防御（如Neural Cleanse、STRIP、Frequency-based detection）。这篇论文适合AI安全研究员、预训练模型部署团队和安全审计人员阅读，以理解新型攻击面并开发对应的防御策略。

💡 推荐理由: 混叠后门攻击利用了预训练模型中固有但常被忽视的物理现象，攻击难以被传统输入清洗或异常检测捕获，对依赖预训练模型的AI系统构成隐秘威胁。

🎯 建议动作: 研究跟进，评估现有模型对混叠后门的脆弱性。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ziming Zhang, Li Li, Guorui Feng, Hanzhou Wu, Xinpeng Zhang

大型语言模型（LLM）因其强大的推理能力被广泛部署于多种场景，但同时也面临被滥用的风险。为了确保模型所有权，通常采用水印技术。然而，现有大多数水印方法仅对模型的输出分布进行表层修改，导致水印容易受扰动或去除。针对这一挑战，本文提出了一种名为冗余思维链（R-CoT）的推理层水印框架，将水印嵌入模型的推理路径中。R-CoT 基于 GRPO（分组相对策略优化）设计了一种双轨迹优化机制，使原生推理路径和水印推理路径能够在共享参数空间内共存，从而将水印内化为一种独特的推理策略。这样一来，水印被嵌入模型稳定的推理路径中，避免了因输出级扰动（如文本后处理、同义词替换等）导致水印失效的问题。实验结果表明，与现有方法相比，R-CoT 在保持高水印有效性的同时具有极强的鲁棒性。在微调等后训练操作下，其真阳性率（TPR）始终保持在 95% 以上，仅出现轻微下降。本文的主要贡献在于：1) 首次在推理层嵌入水印，而非输出层；2) 提出双轨迹优化机制实现水印与原生推理策略的共存；3) 实验证明该方法对微调等操作具有高度鲁棒性。该研究适合 LLM 安全研究人员、模型部署方以及关注知识产权保护的从业者阅读。

💡 推荐理由: R-CoT 提供了一种新型推理层水印方法，相比传统表层水印更鲁棒，能有效防止模型被微调或扰动后水印失效，对 LLM 的版权保护和溯源具有重要实践意义。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#ai-security

Aliasing Backdoor Attacks on Pre-trained Models.

R-CoT: A Reasoning-Layer Watermark via Redundant Chain-of-Thought in Large Language Models