#code-comparison 主题 - Cyber Security Daily Radar

👥 作者: Rebecca Balebako, Jasmine Egl

随着大型语言模型（LLM）在软件开发中的广泛应用，如何客观比较LLM生成代码与人类编写代码的安全性成为一个关键问题。目前缺乏标准化的实证研究方法，导致难以评估LLM是提升还是削弱了安全基线。为此，本文提出一个自动化框架，用于在纯人类、纯LLM以及人机协作三种条件下进行对比研究。该框架自动记录提示词、时间戳和实验设置，并通过多维度的静态和动态质量分析来衡量结果。作者提供了开源实现，以确保未来研究的可重复性和“物种公平性”。通过一项可行性研究验证了框架的有效性，并总结了经验教训，为后续关于人类与LLM生成代码安全性的实证研究奠定了基础。本文适合软件安全研究人员、LLM开发者以及希望评估AI编码工具安全性的组织阅读。

💡 推荐理由: 该研究提供了首个标准化方法，用于实证比较LLM与人类编写代码的安全性，填补了评估AI编码工具安全影响的关键空白。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#code-comparison

How to Compare the Security of Code Written by Humans to LLM-generated Code