#causal-analysis 主题 - Cyber Security Daily Radar

👥 作者: Licheng Pan, Yunsheng Lu, Jiexi Liu 0005, Jialing Tao, Haozhe Feng, Hui Xue 0001, Zhixuan Chu, Kui Ren 0001

本文针对大语言模型（LLM）的“越狱”攻击机制展开因果分析研究。现有研究主要通过对潜在表示的探测来分析越狱提示，但往往忽略了可解释提示特征与越狱发生之间的因果关系。为此，作者提出了Causal Analyst框架，将LLM集成到数据驱动的因果发现中，以识别越狱的直接原因，并将其分别用于攻击与防御。该框架首先构建了一个包含35k次越狱尝试的数据集，涵盖7个LLM、100个攻击模板和50个有害查询，并人工标注了37个可读的提示特征。随后，通过联合训练基于LLM的提示编码和基于图神经网络的因果图学习，重建了从提示特征到越狱响应的因果通路。分析发现，“正面角色”（Positive Character）和“任务步骤数”（Number of Task Steps）等特定特征是越狱的直接因果驱动因素。基于这些因果洞察，作者开发了两个应用：一是“越狱增强器”，通过针对性地增强因果特征显著提升了在公开基准上的攻击成功率；二是“护栏顾问”，利用学到的因果图从混淆查询中提取真正的恶意意图。大量实验包括基线对比和因果结构验证证实了因果分析的鲁棒性，并证明其优于非因果方法。本文表明，从因果角度分析越狱特征是提升LLM可靠性的有效且可解释的途径。代码已开源。

💡 推荐理由: 首次从因果视角系统性地揭示LLM越狱的驱动机理，不仅解释了现有攻击为何成功，更提供了可操作的防御思路，有助于构建更鲁棒的护栏机制。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#causal-analysis

A Causal Perspective for Enhancing Jailbreak Attack and Defense.