大型语言模型(LLM)在自然语言处理任务中展现出强大能力,但易受提示注入(PI)和越狱(JB)攻击。此外,现有基准评估可能受到数据污染和部分信息泄露的影响,导致性能估计不可靠。本文提出 GuardNet——一种基于浅层神经网络(BiLSTM)集成(ensemble)的护栏系统,模型参数量约 4700 万。作者假设在对抗场景中,鲁棒性更多依赖于示例覆盖的多样性和阈值校准,而非模型规模。实验结果表明,GuardNet 在盲测 JBB-Behaviors 基准上达到 AUROC=0.747(n=200),在专有基准上(n=50)F1 分数为 0.92,且通过阈值校准和声明部分信息泄露的评估实现。系统在 CPU 上平均延迟约 50 毫秒,适合在成本和基础设施受限的生产环境中部署。尽管与 Mistral-7B 和 Llama-3.1-8B 等大型 LLM 相比,GuardNet 在 F1 和 AUROC 上仍有差距(后者性能更优),但 GuardNet 提供了轻量级、高效的防护方案,为实际部署提供可行选择。
💡 推荐理由: GuardNet 展示了轻量级神经网络集成在对抗提示注入和越狱攻击中的潜力,为资源受限环境下的 LLM 安全防护提供了实际可部署的方案。
🎯 建议动作: 研究跟进