#auditability

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Kemal Bicakci

这篇论文针对公共机构在资助评审中引入大语言模型(LLM)作为决策辅助工具时面临的治理难题:模型和评分标准不能暴露给申请人以防他们针对优化,但评审过程必须可审计、可质疑且可问责。作者提出了一种基于可信执行环境(TEE)的架构,通过远程证明技术协调上述矛盾。该架构允许外部验证者检查使用的模型、评分规则、提示模板和输入表示,同时不向申请人或基础设施操作者暴露模型权重、专有评分逻辑或中间推理过程。核心成果是“经证明的评审包(attested evaluation bundle)”:一个包含签名和时间戳的记录,关联原始提交哈希、规范化输入哈希、模型与评分规则度量以及评审输出。论文还考虑了场景特定的提示注入风险:申请人控制的文档可能包含隐藏指令影响LLM评估。为此,论文设计了规范化和净化层,用于标准化文档表示并在推理前记录可疑变换。作者将设计置于机密AI推理、可证明AI审计、零知识机器学习、算法问责制和AI辅助同行评议的背景下进行定位。论文的声明刻意狭窄:远程证明不能证明评审是公平或科学正确的,但可以使评审过程的部分环节变得外部可验证。

💡 推荐理由: 该论文直面AI辅助决策中的透明度与保密性矛盾,提出实用架构,对政府、基金机构部署可审计的LLM系统具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

提出Sovereign Agentic Loops (SAL)架构,通过控制平面解耦LLM推理与执行,验证模型意图后再执行,防止不安全API调用。

💡 推荐理由: 当前LLM代理直接执行随机模型输出存在安全风险,SAL提供结构化的策略执行和审计机制,可显著降低误操作和恶意利用风险。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)