#drift-detection

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Chunxiao Wang

本文提出Nautilus Compass,一个面向生产环境LLM coding agent的黑盒人格漂移检测与记忆层系统。研究背景:LLM agent在长时间会话中会出现人格漂移,例如遗忘用户指定的约束、重复已被用户指出的错误、虚构先前的协议。现有白盒方法(如人格向量)需要模型权重,无法应用于大多数用户实际使用的闭源API(Claude、GPT-4)。核心方法:Compass完全在提示文本层操作,使用BGE-m3嵌入计算用户提示与行为锚点文本之间的余弦相似度,并通过加权top-k均值聚合。该方法不调用LLM进行事实提取或构建图,原始对话文本直接嵌入,是唯一公开的不需要索引时调用LLM的记忆层(经与Mem0、Letta等对比)。系统实现为Claude Code插件、MCP A2A服务器、CLI和REST API,并带有Merkle链审计日志以保证锚点更新的防篡改。实验:基于真实Claude Code会话轨迹构建测试集,由独立LLM法官标记,Compass在漂移检测上达到ROC AUC 0.83。其在LongMemEval-S v0.8上得分为56.6%,在EverMemBench-Dynamic上为44.4%(n=500),超过了已发布的四个基线。但LongMemEval-S得分比最新的白盒方法低约30个百分点,作者认为这是无需提取设计的天花板。端到端复现成本为3.50美元(比GPT-4o评估栈便宜约14倍)。代码、锚点、冻结测试数据和审计日志工具均在MIT许可下开源。核心贡献:(1)第一个黑盒、低成本的persona漂移检测方法;(2)提供无需LLM调用的记忆层;(3)实现防篡改审计日志。适合LLM agent开发者和安全研究人员阅读。

💡 推荐理由: 生产环境中的LLM agent常因人格漂移导致行为不可靠,而现有白盒方法依赖模型权重,无法用于闭源API。本方法提供了一种黑盒、低成本、无需调用LLM的检测方案,有助于提升agent的鲁棒性和可信度。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)