#mechanistic-interpretability

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Syafiq Al Atiiq, Chun Zhou, Christian Gehrmann

本文采用机械可解释性方法深入分析大语言模型(LLM)检测软件漏洞的内部计算机制。研究以Gemma-2-2b模型为对象,使用Circuit Tracer工具追踪其在分类472个C/C++代码样本(含漏洞与安全代码)时激活的计算路径。令人惊讶的是,分析发现模型并非直接识别漏洞特征,而是主要依赖一组“安全检测器”——特定注意力头能识别安全编码模式。当这些安全检测器未激活时,模型将代码判定为有漏洞。关键神经组件包括:早期层(L5、L7)中专注于安全模式的注意力头,以及第7层多层感知器(MLP)中编码漏洞相关特征的神经元。消融实验证实了这些组件的因果作用:移除第11层导致漏洞检测准确率从100%骤降至6%,仅移除第7层中的20个神经元便使准确率降低50%。研究进一步揭示,LLM漏洞检测仅使用约16%的模型容量即可形成稀疏、可解释的电路。这一发现为漏洞检测系统提供了电路级别的解释,并可指导针对性的性能改进。论文成果有助于理解LLM在安全任务中的推理过程,推动更透明、可审计的AI安全检测工具的发展。

💡 推荐理由: 该研究首次从电路层面揭示LLM漏洞检测的工作机制,发现模型依赖安全模式识别而非漏洞签名,颠覆了传统认知。安全从业者可据此优化检测策略,提升模型可解释性与可信度。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)