该论文研究了大型语言模型(LLM)在面对强制性审讯(coercive interrogation)时的韧性。强制性审讯是一种对抗性交互,攻击者试图通过重复、施压或诱导等方式迫使模型生成违反其初始对齐或安全约束的输出。作者提出了一种系统性的评估框架,通过构造一系列逐步升级的审讯策略(包括重复提问、情感施压、逻辑陷阱等)来测试不同LLM的抵抗力。实验在多个开源和闭源模型上展开,结果显示,即使是经过对齐训练的模型,在面对持久且针对性设计的审讯时,也表现出显著的脆弱性,可能泄露敏感信息、承认错误主张或产生不安全内容。论文进一步分析了模型内部机制(如注意力分布、神经元激活)与韧性之间的关系,发现模型在压力下会表现出注意力漂移和决策路径改变。主要贡献包括:定义和形式化了LLM强制性审讯问题;构建了包含多种审讯策略的测试基准;揭示了当前模型对齐技术的局限性;并提出了改进模型韧性的潜在方向,如通过对抗性训练增强鲁棒性。该研究对理解LLM在实际部署中的安全风险具有重要意义,提示开发者需关注模型在持续对抗性交互下的行为退化。
💡 推荐理由: 揭示LLM在对抗性压力下的脆弱性,挑战了当前对齐方法的有效性,对部署安全可信的对话系统至关重要。
🎯 建议动作: 研究跟进