推荐 3.5
Conf: 50%
本论文研究了基于语言模型的智能体(Agent)在执行复杂任务时生成的执行追踪(execution traces)所引发的程序技能泄露风险。用户通常依赖这些追踪来观察行为、诊断失败和确保问责,但追踪中包含了丰富的程序细节,如工具调用、中间决策和错误恢复逻辑,这些细节可能暴露私有的程序化技能(procedural skills),使得下游方法能够在无需访问模型权重或技能文件的情况下恢复关键公式、阈值和策略。为了量化这一风险并评估保护措施,作者构建了CapTraceBench基准,包含75个专门的长周期任务和7个领域(如金融、医疗等)的154个手工技能。同时,提出了RedAct框架,一个受保护的追踪发布系统,能够定位受保护的关键信息,重写追踪内容同时保留对验证者关键的审计证据,并嵌入行为水印用于下游溯源分析。实验表明,针对多种代表性的追踪重用方法,RedAct能将归一化技能转移(NST)从原始追踪的44.7%-67.1%降低到低于无技能基线的水平,同时保持审计证据的可用性。其行为水印达到了93.6%-100.0%的真实检测率,误报率不超过1.9%。这些结果将公共Agent追踪重新定义为安全接口,并证明选择性编辑能够在不移除审计证据的情况下减少程序能力泄露。
💡 推荐理由: Agent执行追踪可能无意中泄露私有程序逻辑,威胁知识产权和竞争优势。RedAct提供了一种保护性编辑方案,平衡了透明性与安全性,对部署自治Agent的组织具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)