#pre-model-guard 主题 - Cyber Security Daily Radar

👥 作者: Hongyu Cai, Arjun Arunasalam, Yiming Liang, Antonio Bianchi, Z. Berkay Celik

本文针对大型语言模型（LLM）在面对 jailbreak 攻击时易产生不安全响应的问题，提出了一种基于预模型守卫的新型防御架构。现有防御方法分为两类：预模型守卫仅审计用户提示词，但容易漏检（假阴性率高）；后模型守卫同时审计提示词和模型响应，但计算成本高（增加 token 使用量和处理时间）。作者首先系统研究了 jailbreak 攻击从 LLM 到小型语言模型（SLM）的可迁移性，发现关键影响因素（如模型大小、训练数据等）。基于这一观察，他们提出利用 SLM 的投机推理（speculative inference）生成一组草稿响应，然后将原始提示词与草稿响应共同送入现有守卫模型进行安全性预测。实验表明，该方法显著降低了预模型守卫的假阴性率，同时提供了比后模型守卫更高效的选择。论文还包含有害语言示例。

💡 推荐理由: 在 LLM 安全部署中，jailbreak 攻击是重大威胁。本文提出的预模型守卫改进方案平衡了检测准确率和计算效率，为实际部署提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#pre-model-guard

Exploring and Developing a Pre-Model Safeguard with Draft Models