推荐 5.5
Conf: 50%
大型语言模型(LLMs)在各类实际场景中广泛应用,但仍易受到越狱攻击,即通过基于提示的攻击绕过安全过滤器。本文提出THREAT(通过重框和利用对抗策略进行目标有害生成)框架,这是一个基于推理的框架,协调多个LLM在迭代搜索循环中寻找文本越狱提示。作者将提示发现形式化为非凸优化问题,并提供了一种高效解决方案,降低了运行时间并提高了攻击有效性。在多个数据集和模型架构上,THREAT相比先前方法实现了更高的攻击成功率和更低的计算成本。生成的提示在不到1%的情况下被标记为有害,而对应的未修改提示的拒绝率约为50%。这些发现揭示了已对齐LLM中先前未被检测到的漏洞,并将THREAT定位为主动增强基础模型安全性的实用工具。本文适合研究LLM安全、对抗攻击与防御的研究者及安全工程师阅读。
💡 推荐理由: 揭示了当前对齐LLM未被发现的安全漏洞,提出高效的自动化越狱框架,为防御方提供对抗攻击的新视角。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)