#prompt-fragility

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Alexander Sternfeld, Andrei Kucharavy, Ljiljana Dolamic

本文研究的是基于大语言模型(LLM)的编码助手在提示(prompt)受到微小扰动时,生成的代码是否会从安全变为脆弱。以往工作主要关注扰动对功能正确性的影响,而本文首次系统性地探讨对代码安全性的影响。作者在三种模型和五种编程语言上对提示进行词元级别的突变,发现即使单字符的改变也可能导致生成的代码从安全转为易受攻击。通过探测模型的隐藏状态,发现这种脆弱性部分编码在提示表示中,但分布不均。输入处理类漏洞(如模型遗漏输入验证或清理)的可预测性较高(平均AUC 0.753),而安全默认值类漏洞(如使用弱算法或不安全参数)的可预测性较低(平均AUC 0.674)。结果表明,LLM辅助编码的威胁模型应超越提示注入,涵盖普通提示变异,并且输入处理缺陷可在生成前捕获,而安全默认值缺陷需要在解码过程中干预。

💡 推荐理由: 该研究首次揭示提示的微小扰动(而非恶意注入)即可导致LLM生成带漏洞代码,扩大了LLM辅助编码的威胁面,对安全开发实践具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)