#multi-turn-dialogue 主题 - Cyber Security Daily Radar

👥 作者: Xinjie Shen, Rongzhe Wei, Peizhi Niu, Haoyu Wang, Ruihan Wu, Eli Chien, Bo Li, Pin-Yu Chen, Pan Li

本文针对多轮对话中隐藏恶意意图的威胁，提出了一种响应感知的防御方法。攻击者可将恶意目的分散到多个看似无害的对话轮次中，绕过现有安全对齐和外部护栏。作者检测出“最早使得累计交互足以产生危害的轮次”，即“危害使能关闭点”，以实现精确的轮次级别干预，避免过早拒绝良性对话。为此，他们构建了多轮意图数据集（MTID），包含分支攻击展开、匹配的良性难例以及最早危害使能轮次的标注。基于MTID训练的轮次级监控器TurnGate，在恶意意图检测上显著优于现有基线，同时保持低过度拒绝率。TurnGate还能泛化到不同领域、攻击管线及目标模型。代码已开源。

💡 推荐理由: 多轮对话中的分布式恶意意图是一种新兴威胁，现有防御难以检测。本文提出了首个针对性的轮次级检测方法，为LLM安全部署提供了重要防护思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#multi-turn-dialogue

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue