#safety-guardrails 主题 - Cyber Security Daily Radar

👥 作者: Wenjie Jacky Mo, Xiaofei Wen, Rui Cai, Boyu Zhu, Sicong Jiang, Zihan Wang, Minglai Yang, Zhe Zhao, Muhao Chen

本论文针对大型语言模型（LLM）在真实部署中安全护栏的鲁棒性问题展开研究。作者指出，现有安全数据集仅覆盖零散的风险子集且分类体系不一致，导致难以评估护栏模型的泛化能力。为此，本文首先构建了GuardZoo，一个统一的人工标注基准，包含32,460个样本，覆盖15个不同的不安全类别（如仇恨言论、暴力、性内容等）。基于GuardZoo的评估发现，单一护栏模型存在任务干扰问题：不同威胁域需要不同的决策边界，难以压缩到单一模型中。为了解决这一局限，作者提出了RouteGuard，一个路由器-专家架构，它将每个对话路由到专门的专家护栏（每个专家针对特定威胁域进行检测）。实验表明，RouteGuard在细粒度威胁检测上优于强基线护栏，在域外评估下具有更好的泛化能力，并且支持灵活模块化扩展以应对新兴威胁。本文的主要贡献包括：(1) 构建了大规模、多类别、统一标注的安全护栏评估基准GuardZoo；(2) 揭示了单一护栏模型的局限性；(3) 提出了路由器-专家框架RouteGuard，提升了检测效果和模块化扩展性。该研究适合LLM安全研究人员、模型部署工程师以及关注AI对齐的从业者阅读。

💡 推荐理由: LLM安全护栏是实际部署中的关键防线，本文揭示了单一护栏的局限性并提出了模块化路由方案，为构建可扩展、细粒度的安全检测系统提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#safety-guardrails

Triaging Threats to Specialized Guardrails