#ai-safety

共收录 3 条相关安全情报。

← 返回所有主题
👥 作者: Chenyu Zhang, Lanjun Wang, Yueyang Cheng, Ruidong Chen, Wenhui Li, An-an Liu

本文研究文本到图像(T2I)生成模型中的风险内容检测与抑制问题,重点关注最新的基于扩散变换器(Diffusion Transformer, DiT)的架构。与早期基于U-Net的模型不同,DiT通过联合注意力(joint attention)将语义注入与视觉合成纠缠在一起,使得隔离和擦除风险内容更加困难。作者发现DiT中的注意力头表现出概念特异性敏感性,即不同注意力头对不同语义概念敏感。基于这一发现,提出了AHV-D&S方法,一种无需训练、推理时生效的安全防护措施。AHV-D&S首先量化每个文本标记在所有注意力头上的敏感性,形成注意力头向量(AHV),作为检测风险生成倾向的判别特征。在推理阶段,采用基于动量策略动态跟踪去噪步骤中的标记级AHV,并设计敏感性指导的自适应抑制策略,根据头特异性风险分数抑制已识别风险标记的注意力权重。大量实验表明,AHV-D&S能有效抑制性内容、受版权保护的风格及其他有害内容的生成,同时保持视觉质量,并对对抗性提示表现出强鲁棒性,且在不同DiT-based T2I模型间具有可迁移性。该方法无需重新训练,可直接应用于现有模型推理,为图像生成安全提供了实用的解决方案。

💡 推荐理由: 当前最先进的DiT架构T2I模型缺乏针对风险内容的有效防护,本文提出的无训练推理时方法填补了这一空白,为安全从业者提供了一种即插即用的风险检测与抑制手段。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.5
Conf: 50%
👥 作者: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

本论文研究视觉语言模型(VLM)作为可信权威时面临的安全威胁。作者提出了一种新型攻击范式——AI权威洗钱(AI authority laundering):攻击者通过对图像施加人眼几乎不可察觉的对抗性扰动,诱导VLM对错误的视觉输入产生自信且权威的回应。与越狱攻击或提示注入不同,该攻击不破坏模型的对齐(alignment),而是完全作用于感知层面,因此传统安全防护措施难以检测。作者利用公开可用的CLIP模型生成对抗性样本,成功迁移至多个商业生产级VLM,包括GPT-5.4、Claude Opus 4.6、Gemini 3和Grok 4.2。实验覆盖四个攻击面:放大错误信息、贬低个人、逃避内容审核以及操纵产品推荐。在身份操纵和NSFW(不适宜工作场所)内容规避的数百次攻击中,六种模型的成功率在22%至100%之间。值得注意的是,攻击并未使用新颖算法,而是采用十余年前已知的基本对抗性技术,这表明攻击者的能力下限已经足以构成实际威胁。作者认为,视觉对抗鲁棒性现在是一个实际且尚未解决的安全问题。该研究适合VLM开发者、安全工程师及AI政策制定者阅读。

💡 推荐理由: 揭示VLM在实际部署中因感知层攻击导致的权威滥用风险,可能被用于传播误导信息、操纵内容审核和产品推荐,而传统基于对齐的防御措施无效。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha

该论文提出了一种名为 Sparse Backdoor 的供应链攻击,能够在预训练图像分类器(包括卷积网络和视觉Transformer)中植入一个理论上不可检测的后门。攻击方法是在每个全连接层的少量列上沿随机方向注入结构化稀疏扰动,从而将触发信号传播到攻击者选择的目标类别,并通过独立的各向同性高斯抖动掩盖该扰动。抖动的作用是产生一个以预训练权重为锚点的干净参考分布,据此形式化定义不可检测性。在预训练分类器满足温和的边际条件时,论文证明了抖动后的参考模型与原始分类器功能等价。进一步,论文证明区分植入了后门的模型与该参考模型至少与Sparse PCA检测问题一样困难,而后者在标准难度假设下是计算不可行的。该保证适用于任何具有白盒参数访问权限的概率多项式时间区分器。

💡 推荐理由: 该研究揭示了机器学习供应链中一种新型后门攻击,能在参数层面实现理论上的不可检测性,对AI模型的可信部署构成严重威胁。安全从业者需关注此类攻击对模型审计和安全性评估的挑战。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)