#auditability

共收录 3 条相关安全情报。

← 返回所有主题
👥 作者: Ravi Kiran Kadaboina

该论文提出了Pramana,一个用于自治代理网络中的声明验证的协议层解决方案。在受监管领域中,自主代理对每个关键输出必须产生一个可审计的验证工件,记录声明内容、来源、执行者、时间和方式。当前的生产验证分为两个未标准化的方向:概率性判决模式(如自一致性投票、评审LLM集成)产生判断而非工件;而工件产生模式(如RAG、工具增强轨迹、生成器-验证器循环)产生特定于供应商的记录,外部审计员无法在不进行定制集成的情况下重构。Pramana定义了缺失的线路格式:每个关键代理输出被封装在一个类型化的ClaimAttestation中,包含四种变体(测量、推理、类比、引用),每种都配有针对记录源的verify()操作。对于测量声明和引用声明,verify()是确定性的;对于推理声明和类比声明,确定性则取决于预言机(在LLM支持下可审计重放)。这种四类分类源于古典印度认识论(pramana,有效知识的来源)。生命周期在TLA+中指定,并通过TLC在三个对称缩减模型上进行了全面验证:总共38,563个不同的可达状态,零个不变性违反。Python参考实现通过了84个测试。一个A2A和MCP的线扩展清单层叠了三个部署级不变性:可达性、SLA边界和离线可重新验证。一个探索性试点(n=100,2,275次评审调用)探讨了LLM作为代码生成中的评判者。最显著的观察是跨越语料库的40个百分点的原始FPR差异,与参考解决方案质量显著一致。该试点本身并不验证Pramana;结构论证和形式验证做到了这一点。

💡 推荐理由: 该工作为自治代理的可审计性提供了形式化协议层设计,填补了声明验证标准化的空白,对监管合规和信任建立具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Kemal Bicakci

这篇论文针对公共机构在资助评审中引入大语言模型(LLM)作为决策辅助工具时面临的治理难题:模型和评分标准不能暴露给申请人以防他们针对优化,但评审过程必须可审计、可质疑且可问责。作者提出了一种基于可信执行环境(TEE)的架构,通过远程证明技术协调上述矛盾。该架构允许外部验证者检查使用的模型、评分规则、提示模板和输入表示,同时不向申请人或基础设施操作者暴露模型权重、专有评分逻辑或中间推理过程。核心成果是“经证明的评审包(attested evaluation bundle)”:一个包含签名和时间戳的记录,关联原始提交哈希、规范化输入哈希、模型与评分规则度量以及评审输出。论文还考虑了场景特定的提示注入风险:申请人控制的文档可能包含隐藏指令影响LLM评估。为此,论文设计了规范化和净化层,用于标准化文档表示并在推理前记录可疑变换。作者将设计置于机密AI推理、可证明AI审计、零知识机器学习、算法问责制和AI辅助同行评议的背景下进行定位。论文的声明刻意狭窄:远程证明不能证明评审是公平或科学正确的,但可以使评审过程的部分环节变得外部可验证。

💡 推荐理由: 该论文直面AI辅助决策中的透明度与保密性矛盾,提出实用架构,对政府、基金机构部署可审计的LLM系统具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

提出Sovereign Agentic Loops (SAL)架构,通过控制平面解耦LLM推理与执行,验证模型意图后再执行,防止不安全API调用。

💡 推荐理由: 当前LLM代理直接执行随机模型输出存在安全风险,SAL提供结构化的策略执行和审计机制,可显著降低误操作和恶意利用风险。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)