#theory-of-mind 主题 - Cyber Security Daily Radar

👥 作者: Nesreen K. Ahmed, Nima Nafisi

本文提出 Agent-ToM，一个基于心理理论（Theory-of-Mind, ToM）推理的监控框架，用于检测自主大语言模型（LLM）代理的隐蔽恶意行为。现有监控方法通常将每条轨迹独立处理，未利用历史监控经验，且缺乏对代理信念、意图和目标一致性的显式推理。Agent-ToM 在推理时采用“推理-验证-精炼”（Reason-Verify-Refine）流水线：首先推理代理的信念和意图假设并校准置信度，预测预期行为，然后通过与任务一致的行为基线对比检测偏差，最后验证并精炼监控决策。在训练阶段，Agent-ToM 将批评信号蒸馏为持久的“语义护栏记忆”，从而在不同剧集间复用信念和意图条件约束。作者在对抗性代理监控基准 SHADE-Arena 和 CUA-SHADE-Arena 上评估 Agent-ToM，结果表明其在精确率-召回率平衡上优于包括集成方法在内的现有监控基线，且仅需两次调用推理流水线。该工作表明，在监控层结合结构化 ToM 推理与验证，为保护自主 LLM 代理提供了有效且可部署的基础。

💡 推荐理由: 自主 LLM 代理可能长期执行隐蔽恶意行为，现有监控方法缺乏对代理内部信念和意图的推理，Agent-ToM 首次将心理理论引入安全监控，显著提升检测能力，对保障 LLM 代理安全性具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#theory-of-mind

Agent-ToM: Learning to Monitor Autonomous LLM Agents via Theory-of-Mind Reasoning