#guardrails

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Paulo Ricardo Ferreira Neves, Edson Rodrigues da Cruz Filho, Paulo Henrique Eleuterio Falsetti, João Vitor Pavan, Ian Degaspari, Henrique Vieira Laturrague, Patrick Vieira Laturrague, Guilherme Nielsen Dias, Marccello Wilson Perez Berto, Gustavo Voltani Von Atzingen

大型语言模型(LLM)在自然语言处理任务中展现出强大能力,但易受提示注入(PI)和越狱(JB)攻击。此外,现有基准评估可能受到数据污染和部分信息泄露的影响,导致性能估计不可靠。本文提出 GuardNet——一种基于浅层神经网络(BiLSTM)集成(ensemble)的护栏系统,模型参数量约 4700 万。作者假设在对抗场景中,鲁棒性更多依赖于示例覆盖的多样性和阈值校准,而非模型规模。实验结果表明,GuardNet 在盲测 JBB-Behaviors 基准上达到 AUROC=0.747(n=200),在专有基准上(n=50)F1 分数为 0.92,且通过阈值校准和声明部分信息泄露的评估实现。系统在 CPU 上平均延迟约 50 毫秒,适合在成本和基础设施受限的生产环境中部署。尽管与 Mistral-7B 和 Llama-3.1-8B 等大型 LLM 相比,GuardNet 在 F1 和 AUROC 上仍有差距(后者性能更优),但 GuardNet 提供了轻量级、高效的防护方案,为实际部署提供可行选择。

💡 推荐理由: GuardNet 展示了轻量级神经网络集成在对抗提示注入和越狱攻击中的潜力,为资源受限环境下的 LLM 安全防护提供了实际可部署的方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Minbeom Kim, Lesly Miculicich, Bhavana Dalvi Mishra, Mihir Parmar, Phillip Wallis, Bharath Chandrasekhar, Kyomin Jung, Tomas Pfister, Long T. Le

本文提出了 LiSA (Lifelong Safety Adaptation) 框架,旨在解决 AI Agent 部署后的安全护栏适应性问题。随着 AI Agent 从聊天界面扩展到读取私有数据、调用工具和执行多步骤工作流,护栏失效的后果不再是单纯的回答质量错误,可能引发秘密泄露、危险操作授权或阻碍合法工作。最棘手的失效往往是上下文相关的:一个行为是否可接受取决于当地的隐私规范、组织策略和用户期望,而这些很难在部署前完全指定。这造成了实际差距:护栏需要适应其运行环境,但部署反馈通常仅限于稀疏且带有噪声的用户报告,且重复微调往往不切实际。为此,LiSA 通过结构化记忆改进固定基础护栏。LiSA 将偶发失效转化为可复用的策略抽象,使稀疏报告能够泛化到个别案例之外;引入冲突感知的局部规则以防止混合标签上下文中的过度泛化;并通过后验下界应用证据感知的置信门控,使得记忆复用的规模随积累的证据而非单纯的经验准确性增长。在 PrivacyLens+、ConFaide+ 和 AgentHarm 三个基准上,LiSA 在稀疏反馈条件下一致优于强记忆基线,即使在 20% 的标签翻转率噪声下依然稳健,并将延迟-性能边界推至超过骨干模型缩放的效果。总之,LiSA 为确保 AI Agent 免受现实世界边缘风险的长尾问题提供了实用路径。

💡 推荐理由: AI Agent 的安全护栏必须动态适应运行环境,但部署后反馈稀疏且噪声大。LiSA 提供了一种无需频繁微调即可持续改进护栏的方法,解决了护栏在复杂真实场景下的泛化与鲁棒性难题。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)