推荐 5.5
Conf: 50%
本文针对多轮对话中隐藏恶意意图的威胁,提出了一种响应感知的防御方法。攻击者可将恶意目的分散到多个看似无害的对话轮次中,绕过现有安全对齐和外部护栏。作者检测出“最早使得累计交互足以产生危害的轮次”,即“危害使能关闭点”,以实现精确的轮次级别干预,避免过早拒绝良性对话。为此,他们构建了多轮意图数据集(MTID),包含分支攻击展开、匹配的良性难例以及最早危害使能轮次的标注。基于MTID训练的轮次级监控器TurnGate,在恶意意图检测上显著优于现有基线,同时保持低过度拒绝率。TurnGate还能泛化到不同领域、攻击管线及目标模型。代码已开源。
💡 推荐理由: 多轮对话中的分布式恶意意图是一种新兴威胁,现有防御难以检测。本文提出了首个针对性的轮次级检测方法,为LLM安全部署提供了重要防护思路。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)