#human-in-the-loop 主题 - Cyber Security Daily Radar

👥 作者: Xiaoqi Weng

本研究聚焦于黑盒大语言模型（LLM）代理的审批流程安全。当前编码代理将高风险操作（如执行命令）置于人类审批之后，但审批对话框由代理自身生成：人类批准的是代理撰写的摘要。Lies-in-the-Loop (LITL) 攻击表明，被攻陷的代理可以伪造摘要，展示良性描述的同时执行恶意操作。为了解决这一缺陷，论文提出“同意完整性”（Consent Integrity）概念，借鉴经典信息安全中的“所见即所签”（WYSIWYS）和可信路径属性，将其引入代理审批通道。核心机制是：在系统边界处设置一个受信任的调解器，该调解器从实际低级事件（如系统调用）直接渲染出展示给人类的内容，确保用户看到的操作与即将执行的操作精确一致，且渲染路径不被代理篡改。与传统 WYSIWYS 不同，这里的渲染器本身可能被攻击（因为 LLM 代理是可变的），且边界真相是低级事件，必须在不信任代理的前提下解码。由于通用解码器不可能完美，论文提出“分析器相对”的可实现目标：凡是分析器无法分类的动作，标记为“不可检查”而非静默批准。原型实现了分析器、渲染器和执行绑定组件，但总调解和可信路径仅作为规范假设而未完整实现。在 GTFOBins 数据集（1330 条信任工具滥用命令）上，原型静默通过了 10.0% 的命令（这些命令均通过白名单工具执行）；在 tldr 数据集（28798 条正常使用命令）上，原型将 87.0% 的命令标记为不可检查。这两个独立测量揭示了设计的核心张力：限定静默通过的信任列表也正是导致过度提示的原因，而纯边界调解器只能沿此界限移动，无法突破。论文的主要贡献是定义了“同意完整性”这一属性，提出了基于边界调解的机制，并诚实展示了其局限性，而非提供已解决的防御方案。适合对 LLM 代理安全、人机交互安全及可信计算感兴趣的读者。

💡 推荐理由: 当前 LLM 代理的审批流程存在根本性盲区：用户批准的是代理自我叙述的摘要，攻击者可轻松伪造。本研究首次将“所见即所签”原则引入该场景，揭示了必须由不可信代理之外的受信任组件来确保用户同意与实际执行一致，为构建更安全的代理系统提供了理论基础和设计方向。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yan Lin Aung, Kevin Togbe

该论文提出了 CyBOKClaw，一种可解释的人机协同检索框架，用于将网络安全课程中的关键词或短语（KWoPs）映射到网络安全知识体系（CyBOK）。传统的精确匹配方法在应对教育场景中广泛、模糊且仅近似对齐的术语时效果有限。CyBOKClaw 被设计为 top-k 候选生成器，供专家审核，而非严格的精确分类器。它综合运用了查询规范化、策划的术语扩展、概念级提升、主题描述丰富以及领域敏感的排序规则。评估采用结构检索指标和专家引导的 top-5 有用性指标 ECA-5（Exact or Closest Acceptable Match at top-5），该指标记录返回的候选集中是否包含至少一个专家认为精确或最接近实际 CyBOK 位置的映射。在开发集上，CyBOKClaw 达到了 64.73% 的 EXA-5（top-5 精确匹配）、84.18% 的结构语义对齐以及 91.88% 的 ECA-5；在验证集上，分别达到 81.19% 的 EXA-5、93.32% 的结构语义对齐和 98.00% 的 ECA-5。结果表明，专家引导的 top-k 有用性比仅精确结构匹配更能忠诚地反映实际 CyBOK 映射的效用，并且 CyBOKClaw 作为 CyBOK 特定的专家支持检索系统是有效的。

💡 推荐理由: 帮助教育者和课程设计者高效、准确地对齐课程内容与标准化网络安全知识体系，提升课程质量与认可能力。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Meng Wang, Philipp Görz, Joschua Schilling, Keno Hassler, Liwei Guo, Thorsten Holz, Ali Abbasi 0002

业务逻辑漏洞是软件安全中一个关键且难以检测的问题，它们源于应用程序设计或实现中的错误，使攻击者能够触发非预期的行为。传统的基于模糊测试的动态分析工具在检测内存安全漏洞方面表现出色，但往往无法发现业务逻辑漏洞，因为这些缺陷需要理解特定于应用程序的语义上下文。已有的推测上下文的方法由于依赖启发式和非可移植的语言特性，本质上是脆弱且不完整的。由于业务逻辑漏洞在CWE Top 40中占据27个，是实际中最危险的软件弱点之一，现有工具的盲点令人担忧。本文提出了ANOTA，一种新型的人机协同的sanitizer框架。ANOTA引入了一个轻量级、用户友好的注解系统，使用户能够直接将其领域知识编码为轻量级注解，这些注解定义了应用程序的预期行为。运行时执行监视器观察程序行为，将其与注解定义的策略进行比较，从而识别指示漏洞的偏差。为了评估ANOTA的有效性，作者将其与最先进的模糊测试器结合，与其他针对相同目标的流行漏洞发现方法进行比较。结果表明，ANOTA+FUZZER在有效性上优于其他方法。具体来说，ANOTA+FUZZER成功复现了43个已知漏洞，并在评估期间发现了22个以前未知的漏洞（分配了17个CVE）。这些结果证明，ANOTA为发现传统安全测试技术经常遗漏的复杂业务逻辑缺陷提供了一种实用且有效的方法。

💡 推荐理由: 业务逻辑漏洞是实际中最常见但最难以自动化检测的安全弱点之一，ANOTA提出了一种实用的注解式sanitizer方案，填补了现有工具的盲区。

🎯 建议动作: 研究跟进，评估集成到现有测试管线的可行性

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

Cyber Security Daily Radar

#human-in-the-loop

What You Approve Is What Executes: Consent Integrity for Black-Box LLM Agents

CyBOKClaw: Human-in-the-Loop CyBOK Mapping for Cybersecurity Curriculum

Anota: Identifying Business Logic Vulnerabilities via Annotation-Based Sanitization.