#prompt-fragility 主题 - Cyber Security Daily Radar

👥 作者: Alexander Sternfeld, Andrei Kucharavy, Ljiljana Dolamic

本文研究的是基于大语言模型（LLM）的编码助手在提示（prompt）受到微小扰动时，生成的代码是否会从安全变为脆弱。以往工作主要关注扰动对功能正确性的影响，而本文首次系统性地探讨对代码安全性的影响。作者在三种模型和五种编程语言上对提示进行词元级别的突变，发现即使单字符的改变也可能导致生成的代码从安全转为易受攻击。通过探测模型的隐藏状态，发现这种脆弱性部分编码在提示表示中，但分布不均。输入处理类漏洞（如模型遗漏输入验证或清理）的可预测性较高（平均AUC 0.753），而安全默认值类漏洞（如使用弱算法或不安全参数）的可预测性较低（平均AUC 0.674）。结果表明，LLM辅助编码的威胁模型应超越提示注入，涵盖普通提示变异，并且输入处理缺陷可在生成前捕获，而安全默认值缺陷需要在解码过程中干预。

💡 推荐理由: 该研究首次揭示提示的微小扰动（而非恶意注入）即可导致LLM生成带漏洞代码，扩大了LLM辅助编码的威胁面，对安全开发实践具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#prompt-fragility

Minimal Prompt Perturbations Lead to Code Vulnerabilities: Prompt Fragility and Hidden-State Signals in Coding LLMs