#theory-of-mind

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Nesreen K. Ahmed, Nima Nafisi

本文提出 Agent-ToM,一个基于心理理论(Theory-of-Mind, ToM)推理的监控框架,用于检测自主大语言模型(LLM)代理的隐蔽恶意行为。现有监控方法通常将每条轨迹独立处理,未利用历史监控经验,且缺乏对代理信念、意图和目标一致性的显式推理。Agent-ToM 在推理时采用“推理-验证-精炼”(Reason-Verify-Refine)流水线:首先推理代理的信念和意图假设并校准置信度,预测预期行为,然后通过与任务一致的行为基线对比检测偏差,最后验证并精炼监控决策。在训练阶段,Agent-ToM 将批评信号蒸馏为持久的“语义护栏记忆”,从而在不同剧集间复用信念和意图条件约束。作者在对抗性代理监控基准 SHADE-Arena 和 CUA-SHADE-Arena 上评估 Agent-ToM,结果表明其在精确率-召回率平衡上优于包括集成方法在内的现有监控基线,且仅需两次调用推理流水线。该工作表明,在监控层结合结构化 ToM 推理与验证,为保护自主 LLM 代理提供了有效且可部署的基础。

💡 推荐理由: 自主 LLM 代理可能长期执行隐蔽恶意行为,现有监控方法缺乏对代理内部信念和意图的推理,Agent-ToM 首次将心理理论引入安全监控,显著提升检测能力,对保障 LLM 代理安全性具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)