#differential-testing 主题 - Cyber Security Daily Radar

👥 作者: Corban Villa, Sohee Kim, Austin Chu, Alon Shakevsky, Raluca Ada Popa

本文提出 Chai，一个基于 AI 的漏洞发现系统，专门针对加密误用（cryptographic misuse）这类缺少传统插桩检测支持的漏洞类型。传统 AI 辅助漏洞发现主要依赖内存安全等具有明确插桩验证的漏洞类，而对于加密误用，由于缺乏运行时验证机制，现有方法难以兼顾精度与召回。Chai 重新审视并改进了差分测试（differential testing）技术，利用 AI 提升对库级安全问题的检测精度，并将通常被忽视的差异信号转化为下游应用中的具体漏洞线索。具体而言，Chai 颠覆了传统 AI 漏洞发现的“一个代码库、多个漏洞”范式，改为在库级别编目缺陷，并通过加密依赖图将其传播到各下游应用，从而实现复合效率增益。评估覆盖 X.509、JWT 和 SAML 三个库族：Chai 在驱动数十亿设备的 SSL 库中发现了一个之前未知的严重漏洞，还在一个主流浏览器使用的库和一个主流 Linux 发行版使用的库中发现了安全问题，总计发现超过 100 个漏洞。该工作证明了 AI 在无插桩漏洞类上的有效性，为加密误用检测提供了新思路。

💡 推荐理由: 加密误用是常见高危漏洞，但缺乏有效自动化检测手段。Chai 利用 AI 差分测试，首次在多个广泛使用的加密库中发现大量真实漏洞，具有实际安全价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yajie Zhou, Ao Li, Ashwin Silla, Zaoxing Liu, Vyas Sekar

该论文关注AI驱动系统进化中隐藏的弱点问题。近年来，计算机系统社区对AI驱动的系统进化兴趣日益增长，即利用AI智能体迭代地重写系统代码。例如AdaEvolve和Engram等框架声称相比于人工设计算法可获得12-60%的分数提升。然而，这些AI进化程序可能在未见过的负载上表现更差，或出现可扩展性退化，这引发了实际担忧。鉴于AI生成代码的速度和规模，需要自动化机制来发现此类隐藏弱点。为此，作者提出AIChilles系统，它以基线程序P和AI进化程序P'为输入，自动搜索有效的负载，使得P'在正确性、运行时间、内存使用或输出质量方面相对于P发生退化。为应对系统应用的多样性、弱点类型和潜在错误，AIChilles结合了确定性工作负载参数提取、基于智能体的约束推断、差分预言机以及代码频率覆盖等技术，以发现多样化的故障。在5个系统应用和30个AI进化程序上的实验表明，AIChilles共发现了49个不同的隐藏弱点。此外，将AIChilles显式纳入AI驱动的开发周期可以有效缓解其中的若干弱点。该工作展示了自动化评估和提升AI生成代码鲁棒性的重要方向。

💡 推荐理由: 随着AI自动生成代码在系统领域的应用增加，这些代码可能隐藏性能或正确性退化，AIChilles提供了首个自动化发现此类弱点的工具，对保障AI进化系统的可靠性和安全性至关重要。

🎯 建议动作: 阅读论文并评估AIChilles工具，考虑纳入内部AI代码安全评估流程。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#differential-testing

Chai: Agentic Discovery of Cryptographic Misuse Vulnerabilities

AIChilles: Automatically Uncovering Hidden Weaknesses in AI-Evolved Systems