#LLM safety

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Jianwei Tai

本文研究链式思维(CoT)答案劫持的检测与诊断方法。答案劫持是指模型在推理过程中看似合理的推理步骤最终导向错误答案的安全漏洞。作者首先构建了一个受控的数值代理场景:在GSM8K和MATH-500数据集上,对Qwen2.5-7B和Llama3-8B模型施加CoT封装,使最终答案偏离正确标签。不同于将激活修补视为干净轨迹恢复,本文关注劫持轨迹的脆弱性以及恢复是否依赖于同题目的干净源。通过few-shot、puzzle和sycophant三种劫持变体进行实验,在Bonferroni校正后,三个场景(Qwen-puzzle、Llama3-fewshot、Llama3-puzzle)通过了确认性的K=1定位。作者提出选择感知的50/50带验证方法,保留的带内-带外差距分别为+32.6、+45.1和+17.7个百分点,而精确的L*一致性则不太稳定。Qwen-fewshot仍属探索性,sycophant场景在短修补下呈现时间弥散性。BF16全带扫描保留带信号(n=30,K=1扩散0.33,峰值层20),证明带并非INT4伪影。固定钩子重跑实验在主要puzzle单元中保持恢复:Qwen-puzzle在n=100时恢复47.0%(47/100;Wilson 95% CI [37.5%, 56.7%]),Llama3-puzzle恢复39.0%(39/100;[30.0%, 48.8%])。冻结迁移至MATH-500时,最大固定迁移运行恢复26.0%(13/50;[15.9%, 39.6%])。源控制改变机制解释:配对bootstrap显示Qwen-fewshot中干净源与随机源无显著差异(+3.0点,95% CI [-18.2,+27.3]),Llama3-puzzle在扩大n=60时也如此(干净-随机 -8.3 [-21.7,+5.0]),而Llama3-fewshot则是内容介导的(+40.0 [+16.7,+60.0])。

💡 推荐理由: 本文首次系统性地诊断CoT答案劫持的脆性区域,并提出了选择感知的验证方法,有助于蓝队理解此类攻击的内部机制并设计针对性防御。

🎯 建议动作: 研究跟进,评估该方法对自有LLM系统的适用性

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)