推荐 5.5
Conf: 50%
该论文首次系统性地探索了大型语言模型(LLM)在代码漏洞检测中的认知启发式偏差。作者构建了一个控制框架,在保持代码不变的前提下,仅通过改变上下文环境来触发三种认知启发式:光环效应(通过作者归属)、框架效应(通过任务目标和后果描述)以及锚定效应(通过先前分析结果)。研究评估了8个主流LLM在三种编程语言上的表现,并进行了定量与代码级分析。结果显示,所有评估模型均易受这些启发式影响,其中框架效应平均影响最高(33.2%),锚定效应次之(23.5%),光环效应为18.4%。代码级分析进一步表明,需要语义推理才能检测的漏洞比通过模式匹配可识别的漏洞更易受认知启发式影响。此外,模型常在认知条件下将判断从“安全”改为“有漏洞”,却未能准确识别实际漏洞。论文还展示了一个概念验证的黑盒认知攻击,能压制高达97%的先前检测到的漏洞。这些发现表明,认知易感性是LLM漏洞检测的一个一致性且可利用的特性,对依赖LLM进行安全分析的实践具有重要警示意义。本研究适合安全研究人员、LLM开发者及AI安全审计人员阅读。
💡 推荐理由: 揭示了LLM漏洞检测可能受到与人类类似的认知偏差影响,导致结果不可靠甚至可被攻击者利用,对自动化安全分析的可信度提出挑战。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)