#lifelong-learning

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Minbeom Kim, Lesly Miculicich, Bhavana Dalvi Mishra, Mihir Parmar, Phillip Wallis, Bharath Chandrasekhar, Kyomin Jung, Tomas Pfister, Long T. Le

本文提出了 LiSA (Lifelong Safety Adaptation) 框架,旨在解决 AI Agent 部署后的安全护栏适应性问题。随着 AI Agent 从聊天界面扩展到读取私有数据、调用工具和执行多步骤工作流,护栏失效的后果不再是单纯的回答质量错误,可能引发秘密泄露、危险操作授权或阻碍合法工作。最棘手的失效往往是上下文相关的:一个行为是否可接受取决于当地的隐私规范、组织策略和用户期望,而这些很难在部署前完全指定。这造成了实际差距:护栏需要适应其运行环境,但部署反馈通常仅限于稀疏且带有噪声的用户报告,且重复微调往往不切实际。为此,LiSA 通过结构化记忆改进固定基础护栏。LiSA 将偶发失效转化为可复用的策略抽象,使稀疏报告能够泛化到个别案例之外;引入冲突感知的局部规则以防止混合标签上下文中的过度泛化;并通过后验下界应用证据感知的置信门控,使得记忆复用的规模随积累的证据而非单纯的经验准确性增长。在 PrivacyLens+、ConFaide+ 和 AgentHarm 三个基准上,LiSA 在稀疏反馈条件下一致优于强记忆基线,即使在 20% 的标签翻转率噪声下依然稳健,并将延迟-性能边界推至超过骨干模型缩放的效果。总之,LiSA 为确保 AI Agent 免受现实世界边缘风险的长尾问题提供了实用路径。

💡 推荐理由: AI Agent 的安全护栏必须动态适应运行环境,但部署后反馈稀疏且噪声大。LiSA 提供了一种无需频繁微调即可持续改进护栏的方法,解决了护栏在复杂真实场景下的泛化与鲁棒性难题。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)