推荐 8.5
Conf: 50%
本文提出了 LiSA (Lifelong Safety Adaptation) 框架,旨在解决 AI Agent 部署后的安全护栏适应性问题。随着 AI Agent 从聊天界面扩展到读取私有数据、调用工具和执行多步骤工作流,护栏失效的后果不再是单纯的回答质量错误,可能引发秘密泄露、危险操作授权或阻碍合法工作。最棘手的失效往往是上下文相关的:一个行为是否可接受取决于当地的隐私规范、组织策略和用户期望,而这些很难在部署前完全指定。这造成了实际差距:护栏需要适应其运行环境,但部署反馈通常仅限于稀疏且带有噪声的用户报告,且重复微调往往不切实际。为此,LiSA 通过结构化记忆改进固定基础护栏。LiSA 将偶发失效转化为可复用的策略抽象,使稀疏报告能够泛化到个别案例之外;引入冲突感知的局部规则以防止混合标签上下文中的过度泛化;并通过后验下界应用证据感知的置信门控,使得记忆复用的规模随积累的证据而非单纯的经验准确性增长。在 PrivacyLens+、ConFaide+ 和 AgentHarm 三个基准上,LiSA 在稀疏反馈条件下一致优于强记忆基线,即使在 20% 的标签翻转率噪声下依然稳健,并将延迟-性能边界推至超过骨干模型缩放的效果。总之,LiSA 为确保 AI Agent 免受现实世界边缘风险的长尾问题提供了实用路径。
💡 推荐理由: AI Agent 的安全护栏必须动态适应运行环境,但部署后反馈稀疏且噪声大。LiSA 提供了一种无需频繁微调即可持续改进护栏的方法,解决了护栏在复杂真实场景下的泛化与鲁棒性难题。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)