这篇论文提出了 NeuroArmor,一种针对大型语言模型(LLM)的越狱攻击白盒运行时防御方法。现有防御通常对所有提示采用相同策略,导致在安全性和有用性之间难以平衡,容易误伤良性敏感请求。NeuroArmor 针对每个输入提示生成多个安全变体(如无害化改写),作为局部安全参考。在隐藏状态空间中,将原始提示状态与这些安全变体进行比较,通过一致性检查判断提示是否异常。若异常,则路由到拒绝分支或恢复分支:对恶意提示直接拒绝,对边界良性提示进行修复后输出。在 Llama-3-8B-Instruct 上的实验表明,NeuroArmor 将恶意攻击成功率从 41.56% 降至 1.57%,同时良性误报率从 30.26% 降至 22.05%,优于多个基线。外部评估显示未被拦截的响应也极少产生操作性危害。该方法的核心贡献在于提示专用的一致性检查与选择性干预机制,有效兼顾安全与可用性。
💡 推荐理由: 当前越狱攻击手段多样且隐蔽,现有防御常因过站误拦或漏检而失效。NeuroArmor 通过细粒度、提示特异的局部参考实现安全与有用性的更好平衡,对提升 LLM 的实际部署安全性具有直接借鉴意义。
🎯 建议动作: 研究跟进