#adversarial-jailbreaking 主题 - Cyber Security Daily Radar

👥 作者: Shahnewaz Karim Sakib, Swati Kar, Anindya Bijoy Das

大型语言模型（LLMs）在各类实际场景中广泛应用，但仍易受到越狱攻击，即通过基于提示的攻击绕过安全过滤器。本文提出THREAT（通过重框和利用对抗策略进行目标有害生成）框架，这是一个基于推理的框架，协调多个LLM在迭代搜索循环中寻找文本越狱提示。作者将提示发现形式化为非凸优化问题，并提供了一种高效解决方案，降低了运行时间并提高了攻击有效性。在多个数据集和模型架构上，THREAT相比先前方法实现了更高的攻击成功率和更低的计算成本。生成的提示在不到1%的情况下被标记为有害，而对应的未修改提示的拒绝率约为50%。这些发现揭示了已对齐LLM中先前未被检测到的漏洞，并将THREAT定位为主动增强基础模型安全性的实用工具。本文适合研究LLM安全、对抗攻击与防御的研究者及安全工程师阅读。

💡 推荐理由: 揭示了当前对齐LLM未被发现的安全漏洞，提出高效的自动化越狱框架，为防御方提供对抗攻击的新视角。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#adversarial-jailbreaking

Adversarial Reframing: A Framework for Targeted Generation in Language Models