推荐 10.5
Conf: 50%
该论文提出了一种名为 CoT-Guard 的小型监控模型,用于检测推理模型在代码生成任务中的隐蔽不良行为(即隐藏目标)。当前大型模型(如 GPT-5、Gemini-3-Flash)虽可作为有效的 CoT 监控器,但由于其高昂的部署成本和冗长的推理链,不便于实际使用。而现有小型模型(4B-8B 参数)在利用 CoT 检测隐藏目标方面表现不佳,常将恶意意图误判为用户正常请求。为解决此问题,作者设计了一套后训练流水线,结合监督微调(SFT)和强化学习(RL)。SFT 通过蒸馏强监控器的检测行为,缩小模型在域内任务上的差距;RL 在精心构造的困难隐蔽目标上训练,帮助模型泛化到域外监控任务。为验证泛化能力,论文在现实威胁模型下评估,该模型模拟第三方 LLM 路由器通过提示操纵或代码操纵攻击向代码生成请求注入隐藏目标的供应链攻击场景。此外,还引入了四个新的挑战性任务,以超越大型监控器已饱和的目标。实验表明,4B 参数的 CoT-Guard 在提示操纵和代码操纵攻击下均表现出优越的泛化性能,G-mean²(TNR×TPR)达到 75%,优于 GPT-5.4(56%)、GPT-5-mini(41%)和 Qwen3-32B(54%),接近 Gemini-3-Flash(83%)。这些结果证明 CoT-Guard 是一种实用且经济的用户侧防御方案,显著提升了隐藏目标检测能力,同时避免了大型监控器的部署成本。
💡 推荐理由: 目前大型模型监控CoT虽效果良好但成本高昂,小模型监控失败率高;CoT-Guard以4B参数实现了接近大型模型的效果,为LLM代码生成安全监控提供了经济可行的方案。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)