#drift-detection 主题 - Cyber Security Daily Radar

👥 作者: Chunxiao Wang

本文提出Nautilus Compass，一个面向生产环境LLM coding agent的黑盒人格漂移检测与记忆层系统。研究背景：LLM agent在长时间会话中会出现人格漂移，例如遗忘用户指定的约束、重复已被用户指出的错误、虚构先前的协议。现有白盒方法（如人格向量）需要模型权重，无法应用于大多数用户实际使用的闭源API（Claude、GPT-4）。核心方法：Compass完全在提示文本层操作，使用BGE-m3嵌入计算用户提示与行为锚点文本之间的余弦相似度，并通过加权top-k均值聚合。该方法不调用LLM进行事实提取或构建图，原始对话文本直接嵌入，是唯一公开的不需要索引时调用LLM的记忆层（经与Mem0、Letta等对比）。系统实现为Claude Code插件、MCP A2A服务器、CLI和REST API，并带有Merkle链审计日志以保证锚点更新的防篡改。实验：基于真实Claude Code会话轨迹构建测试集，由独立LLM法官标记，Compass在漂移检测上达到ROC AUC 0.83。其在LongMemEval-S v0.8上得分为56.6%，在EverMemBench-Dynamic上为44.4%（n=500），超过了已发布的四个基线。但LongMemEval-S得分比最新的白盒方法低约30个百分点，作者认为这是无需提取设计的天花板。端到端复现成本为3.50美元（比GPT-4o评估栈便宜约14倍）。代码、锚点、冻结测试数据和审计日志工具均在MIT许可下开源。核心贡献：（1）第一个黑盒、低成本的persona漂移检测方法；（2）提供无需LLM调用的记忆层；（3）实现防篡改审计日志。适合LLM agent开发者和安全研究人员阅读。

💡 推荐理由: 生产环境中的LLM agent常因人格漂移导致行为不可靠，而现有白盒方法依赖模型权重，无法用于闭源API。本方法提供了一种黑盒、低成本、无需调用LLM的检测方案，有助于提升agent的鲁棒性和可信度。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#drift-detection

Nautilus Compass: Black-box Persona Drift Detection for Production LLM Agents