#adversarial-steering 主题 - Cyber Security Daily Radar

👥 作者: Junxi Chen, Junhao Dong, Xiaohua Xie

本文提出了一种基于自适应探测导向的鲁棒大型语言模型（LLM）越狱方法。现有对比导向攻击依赖于有限且存在固有偏见的对比提示，并需要繁琐的手动调整导向强度，导致鲁棒性和有效性不足。作者借鉴模型提取的思想，通过学习的导向向量逼近理想导向向量，并基于对比激活的统计信息自适应调整导向强度。实验表明，该方法无需额外对比提示或手动调整，显著提升了探测导向攻击的效果和鲁棒性。作为一篇攻击论文，本文旨在揭示强化LLM的薄弱环节，将平均危害分数从6%提升至70%。代码已开源。该研究为安全社区理解LLM对抗攻击的脆弱性提供了新的视角。

💡 推荐理由: 本文揭示了现有LLM防御机制在面对自适应导向攻击时的脆弱性，提示安全团队需要更全面的防御策略。

🎯 建议动作: 建议安全团队关注并评估现有LLM防御机制对自适应导向攻击的鲁棒性，探索动态导向检测与对抗训练等防御手段。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#adversarial-steering

Adaptive Probe-based Steering for Robust LLM Jailbreaking