推荐 5.5
Conf: 50%
本文提出了一种新视角,认为LLM Agent的安全本质上是Agent与人类交互(Agent-Human Interaction, AHI)问题,而不仅仅是纯算法问题。作者系统分析了截至2026年4月的59篇学术论文、21个生产级Agent系统以及26个安全插件,发现了一个显著的模式:三种以人为中心的安全机制(策略规范、运行时审批和范围配置)在工业实践中被广泛采用,分别至少有14、15和16个系统部署;而学术界研究最多的两种机制(意图锚定和信任标签)在生产中却零部署。然而,当前的人类参与机制远非令人满意:它们在认知负担和安全保证之间存在根本性的权衡,使用户陷入批准疲劳与Agent失控的两难境地。本文做出了三项贡献:第一,通过系统比较基于LLM和基于人类的意图对齐,论证了在当前能力下人类参与Agent安全决策是必不可少的;第二,量化了显著的行业-学术错配,即从业者实际部署的安全机制很少得到研究关注,而研究者偏好的方法却未被部署;第三,提出了一个三方向的研究议程,呼吁将AHI安全视为一等研究公民,需要自己的设计原则、评估方法和理论基础。该研究适合安全工程师、AI Agent开发者和安全策略制定者阅读,有助于理解当前LLM Agent安全中人类因素的不足与改进方向。
💡 推荐理由: 揭示了LLM Agent安全工业实践与学术研究之间的严重脱节,强调人机交互机制的关键性,为安全从业者重新评估Agent安全设计提供了新视角。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)