#code-repair

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yukuan Zhang, Mengxin Zheng, Qian Lou

本文提出了 MPC-Patch-Bench,这是首个针对安全多方计算(MPC)软件的仓库级基准,用于评估大语言模型(LLM)的代码修复能力。当前缺乏此类基准,直接移植通用基准(如 SWE-bench)存在三大结构性缺陷:(1)MPC仓库中通用 Python 基础设施占据主导,而非密码学逻辑;(2)高价值的 MPC 修复缺乏标准化测试,难以通过严格的流水线提取;(3)传统的失败转通过(fail-to-pass)评估不足以验证代码的密码学安全性。MPC 正越来越多地用于隐私保护机器学习、生物医学协作和安全分析,但现有 MPC 代码合成工作仅覆盖算子级或单框架任务。本文提出的基准围绕两个框架组织:(a)数据整理框架,结合领域特定整理代理,通过三个密码学层过滤原始拉取请求,并利用人机协同引擎合成缺失的问题描述和 Fail-to-Pass/Pass-to-Pass 测试,最终生成 205 个经过完全验证的实例;(b)MPC 验证器,通过动态差分测试(对比明文 oracle)和 MPC 特定静态分析规则(标记不安全揭示、不安全算术、非法公开/私有转换)提供专用安全与数值保真度检查。实验评估了多个先进 LLM,结果表明功能解决率最高仅为 22.9%,而 MPC 验证器进一步将已验证解决率降至 17.1%,其中高达 40% 的功能通过补丁因密码学或数值保真度违规被拒绝。该基准揭示了当前 LLM 在 MPC 代码修复领域的显著不足,并为后续研究提供了标准化评估平台。

💡 推荐理由: 为安全从业者提供了首个专注于 MPC 代码修复的 LLM 评估基准,揭示了通用 LLM 在密码学安全代码生成中的严重缺陷,对推动隐私计算领域的 AI 安全研究具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)