#code-repair 主题 - Cyber Security Daily Radar

👥 作者: Yukuan Zhang, Mengxin Zheng, Qian Lou

本文提出了 MPC-Patch-Bench，这是首个针对安全多方计算（MPC）软件的仓库级基准，用于评估大语言模型（LLM）的代码修复能力。当前缺乏此类基准，直接移植通用基准（如 SWE-bench）存在三大结构性缺陷：（1）MPC仓库中通用 Python 基础设施占据主导，而非密码学逻辑；（2）高价值的 MPC 修复缺乏标准化测试，难以通过严格的流水线提取；（3）传统的失败转通过（fail-to-pass）评估不足以验证代码的密码学安全性。MPC 正越来越多地用于隐私保护机器学习、生物医学协作和安全分析，但现有 MPC 代码合成工作仅覆盖算子级或单框架任务。本文提出的基准围绕两个框架组织：（a）数据整理框架，结合领域特定整理代理，通过三个密码学层过滤原始拉取请求，并利用人机协同引擎合成缺失的问题描述和 Fail-to-Pass/Pass-to-Pass 测试，最终生成 205 个经过完全验证的实例；（b）MPC 验证器，通过动态差分测试（对比明文 oracle）和 MPC 特定静态分析规则（标记不安全揭示、不安全算术、非法公开/私有转换）提供专用安全与数值保真度检查。实验评估了多个先进 LLM，结果表明功能解决率最高仅为 22.9%，而 MPC 验证器进一步将已验证解决率降至 17.1%，其中高达 40% 的功能通过补丁因密码学或数值保真度违规被拒绝。该基准揭示了当前 LLM 在 MPC 代码修复领域的显著不足，并为后续研究提供了标准化评估平台。

💡 推荐理由: 为安全从业者提供了首个专注于 MPC 代码修复的 LLM 评估基准，揭示了通用 LLM 在密码学安全代码生成中的严重缺陷，对推动隐私计算领域的 AI 安全研究具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#code-repair

MPC-Patch-Bench: Security-Aware LLM Code Patch for Multi-Party Computation