推荐 3.5
Conf: 50%
本文针对音频语言模型(ALM)的越狱攻击展开研究。现有的越狱攻击通常在整个音频波形上密集地优化扰动,以诱使ALM生成不安全的内容。作者首先通过分析ALM中token对齐梯度的结构,发现梯度能量在音频token上高度不均匀,即只有少量token对应的音频区域主导了优化信号。基于这一观察,提出了Token-Aware梯度优化(TAGO)方法,该方法在每次迭代中仅保留与高梯度能量音频token对齐的波形梯度,而屏蔽其余梯度,从而实现稀疏越狱优化。在三个ALM(包括Qwen3-Omni)上的实验表明,TAGO在显著稀疏化(如token保留率0.25)时仍能保持较高的攻击成功率(例如Qwen3-Omni上ASR_l为86%,而完全保留token时为87%),证明了密集波形更新在很大程度上是冗余的。该工作揭示了token级别异质梯度结构,为未来ALM越狱和安全对齐研究提供了新方向,并建议防御者关注此类稀疏攻击的潜在威胁。
💡 推荐理由: 该研究揭示了音频语言模型越狱攻击中梯度结构的非均匀性,并证明只需少量token即可实现高效攻击,这提示防御者不能仅依赖全波形扰动防御,需开发针对token级稀疏扰动的检测与缓解措施。
🎯 建议动作: 研究跟进,评估自身ALM系统对此类稀疏攻击的脆弱性
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)