#national-security 主题 - Cyber Security Daily Radar

👥 作者: Matteo Pistillo, Samantha Faraone, Joshua Herman

本文针对高风险部署场景（如国家安全）中的失控（Loss of Control, LoC）威胁，提出一种基于任务特定基准的反向链式缓解方法。研究背景是，在国防和情报等国家安全领域部署AI系统时，权限和许可（affordances and permissions）是重要的安全杠杆，但现有方法如结构化威胁建模、预部署代理评估、持续监控和AI安全案例各有局限且缺乏实证依据。作者提出一种互补的实证方法论：利用现有的特定用例基准，通过AI系统在国家安全基准上犯的错误来反向推导失控缓解措施。具体步骤为：(1) 在近似真实用例的任务特定基准上评估AI系统；(2) 聚焦于AI系统对基准问题给出的错误回答，反向推导这些错误回答所描述行为若被执行时，哪些权限和许可会导致下游危害；(3) 选择性地干预这些权限和许可，在阻塞危害路径的同时保留AI系统正确执行任务的能力。作者用衍生安全分类的演示性基准问题展示了该方法的可行性。本文主要贡献在于提供了一种基于证据、可立即实施的缓解思路，使国家安全部署者能够从自身产生的证据出发构建失控缓解措施，而不依赖外部未知威胁模型。适合国家安全领域的AI安全决策者、红队评估人员及AI安全研究人员阅读。

💡 推荐理由: 首次提出利用任务特定基准的错误答案反向推导权限限制的实证方法，为高风险领域（如国家安全）的AI失控缓解提供了可立即实施的、基于证据的路径。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#national-security

Backchaining Loss of Control Mitigations from Mission-Specific Benchmarks in National Security