#code-comparison

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Rebecca Balebako, Jasmine Egl

随着大型语言模型(LLM)在软件开发中的广泛应用,如何客观比较LLM生成代码与人类编写代码的安全性成为一个关键问题。目前缺乏标准化的实证研究方法,导致难以评估LLM是提升还是削弱了安全基线。为此,本文提出一个自动化框架,用于在纯人类、纯LLM以及人机协作三种条件下进行对比研究。该框架自动记录提示词、时间戳和实验设置,并通过多维度的静态和动态质量分析来衡量结果。作者提供了开源实现,以确保未来研究的可重复性和“物种公平性”。通过一项可行性研究验证了框架的有效性,并总结了经验教训,为后续关于人类与LLM生成代码安全性的实证研究奠定了基础。本文适合软件安全研究人员、LLM开发者以及希望评估AI编码工具安全性的组织阅读。

💡 推荐理由: 该研究提供了首个标准化方法,用于实证比较LLM与人类编写代码的安全性,填补了评估AI编码工具安全影响的关键空白。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)