本文针对自主AI代理可能执行具有重大影响且不可逆的操作(如临床处方和软件部署)这一现实问题,提出了一种新的治理模型。核心思想是借鉴人类社会中机构管理强大自主行动者的方式:不监控其推理过程,而是在关键行动点要求独立认证的证据。作者将这种制度模式形式化为一个计算治理模型。在该模型下,AI代理保留规划和推理的完全自主权,但对指定的高风险行动没有执行权。执行取决于一系列前提条件,每个条件由独立的权威来源认证,并与声明的意图进行密码学绑定,最后由确定性策略评估。决策结果记录在防篡改日志中,可供独立重新验证。论文提供了概念验证实现,并通过软件部署和临床处方两个案例进行说明。该研究为AI安全治理提供了一种新的视角,即通过分离决策与执行,引入外部独立验证机制,以降低自主决策风险。适合AI安全研究者、治理模型设计者和政策制定者阅读。
💡 推荐理由: 提出了一种不限制AI推理能力但通过外部独立证明控制高风险行动执行的治理框架,为LLM Agents的安全性提供了可落地的设计原则。
🎯 建议动作: 研究跟进