#auditability 主题 - Cyber Security Daily Radar

👥 作者: Kemal Bicakci

这篇论文针对公共机构在资助评审中引入大语言模型（LLM）作为决策辅助工具时面临的治理难题：模型和评分标准不能暴露给申请人以防他们针对优化，但评审过程必须可审计、可质疑且可问责。作者提出了一种基于可信执行环境（TEE）的架构，通过远程证明技术协调上述矛盾。该架构允许外部验证者检查使用的模型、评分规则、提示模板和输入表示，同时不向申请人或基础设施操作者暴露模型权重、专有评分逻辑或中间推理过程。核心成果是“经证明的评审包（attested evaluation bundle）”：一个包含签名和时间戳的记录，关联原始提交哈希、规范化输入哈希、模型与评分规则度量以及评审输出。论文还考虑了场景特定的提示注入风险：申请人控制的文档可能包含隐藏指令影响LLM评估。为此，论文设计了规范化和净化层，用于标准化文档表示并在推理前记录可疑变换。作者将设计置于机密AI推理、可证明AI审计、零知识机器学习、算法问责制和AI辅助同行评议的背景下进行定位。论文的声明刻意狭窄：远程证明不能证明评审是公平或科学正确的，但可以使评审过程的部分环节变得外部可验证。

💡 推荐理由: 该论文直面AI辅助决策中的透明度与保密性矛盾，提出实用架构，对政府、基金机构部署可审计的LLM系统具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

提出Sovereign Agentic Loops (SAL)架构，通过控制平面解耦LLM推理与执行，验证模型意图后再执行，防止不安全API调用。

💡 推荐理由: 当前LLM代理直接执行随机模型输出存在安全风险，SAL提供结构化的策略执行和审计机制，可显著降低误操作和恶意利用风险。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#auditability

Making AI-Assisted Grant Evaluation Auditable without Exposing the Model

Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems