#audio-language-model 主题 - Cyber Security Daily Radar

👥 作者: Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge

本文针对音频语言模型（ALM）的越狱攻击展开研究。现有的越狱攻击通常在整个音频波形上密集地优化扰动，以诱使ALM生成不安全的内容。作者首先通过分析ALM中token对齐梯度的结构，发现梯度能量在音频token上高度不均匀，即只有少量token对应的音频区域主导了优化信号。基于这一观察，提出了Token-Aware梯度优化（TAGO）方法，该方法在每次迭代中仅保留与高梯度能量音频token对齐的波形梯度，而屏蔽其余梯度，从而实现稀疏越狱优化。在三个ALM（包括Qwen3-Omni）上的实验表明，TAGO在显著稀疏化（如token保留率0.25）时仍能保持较高的攻击成功率（例如Qwen3-Omni上ASR_l为86%，而完全保留token时为87%），证明了密集波形更新在很大程度上是冗余的。该工作揭示了token级别异质梯度结构，为未来ALM越狱和安全对齐研究提供了新方向，并建议防御者关注此类稀疏攻击的潜在威胁。

💡 推荐理由: 该研究揭示了音频语言模型越狱攻击中梯度结构的非均匀性，并证明只需少量token即可实现高效攻击，这提示防御者不能仅依赖全波形扰动防御，需开发针对token级稀疏扰动的检测与缓解措施。

🎯 建议动作: 研究跟进，评估自身ALM系统对此类稀疏攻击的脆弱性

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#audio-language-model

Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization