推荐 10.5
Conf: 50%
本论文针对大型语言模型(LLM)在真实部署中安全护栏的鲁棒性问题展开研究。作者指出,现有安全数据集仅覆盖零散的风险子集且分类体系不一致,导致难以评估护栏模型的泛化能力。为此,本文首先构建了GuardZoo,一个统一的人工标注基准,包含32,460个样本,覆盖15个不同的不安全类别(如仇恨言论、暴力、性内容等)。基于GuardZoo的评估发现,单一护栏模型存在任务干扰问题:不同威胁域需要不同的决策边界,难以压缩到单一模型中。为了解决这一局限,作者提出了RouteGuard,一个路由器-专家架构,它将每个对话路由到专门的专家护栏(每个专家针对特定威胁域进行检测)。实验表明,RouteGuard在细粒度威胁检测上优于强基线护栏,在域外评估下具有更好的泛化能力,并且支持灵活模块化扩展以应对新兴威胁。本文的主要贡献包括:(1) 构建了大规模、多类别、统一标注的安全护栏评估基准GuardZoo;(2) 揭示了单一护栏模型的局限性;(3) 提出了路由器-专家框架RouteGuard,提升了检测效果和模块化扩展性。该研究适合LLM安全研究人员、模型部署工程师以及关注AI对齐的从业者阅读。
💡 推荐理由: LLM安全护栏是实际部署中的关键防线,本文揭示了单一护栏的局限性并提出了模块化路由方案,为构建可扩展、细粒度的安全检测系统提供了新思路。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)