#security classification 主题 - Cyber Security Daily Radar

👥 作者: Ryan Fetterman

本文研究了大语言模型（LLM）在安全分类任务的微调过程中引入的隐蔽漏洞。通常，LLM在微调后会在同分布留出集上评估，但作者发现这种标准评估无法检测出微调本身带来的新脆弱性：模型可能学习到基于令牌的指示器语义，在保持正常分类准确率的同时，对行为保持变换（如PowerShell别名替换、命令重构、字符串构造、执行间接和大小写变异）却失效。以Foundation-Sec-8B-Instruct和其基模型Llama-3.1-8B-Instruct为例，在匹配的PowerShell分类测试集上，通过因果干预定位到分类电路源自Llama中继承的后期注意力路径，而非微调创造。微调集中并语义特化了这一继承结构，改善了基线行为，但同时创造了易受变换影响的攻击面。三层逃避基准测试显示，Foundation-Sec在iwr替换、Invoke-Expression重构以及大小写变异的IEX变体上均失败，而Llama则没有这些问题。作者还推导了一种部署前监控方法：分类边界的线性探针和指示器令牌符号检验可识别出微调后规范指示器角色发生变化的命令族。这些信号仅使用规范输入即可优先进行红队变体生成。研究表明，安全微调在提升任务准确率的同时可能扩大逃避面，提示不应将针对特定任务的小规模微调视为直接更安全的安全分类器，特化过程可能将继承的模型结构转化为脆弱的指示器规则，从而在保持留出集准确率的同时扩大逃避面。需要鲁棒的AI安全就必须完整指定任务的变换空间，并监控微调过程中的语义漂移。

💡 推荐理由: 揭示安全微调可能引入标准评估无法发现的隐蔽漏洞，警示安全从业者不能仅依赖留出集准确率评估模型安全性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#security classification

Inherited Circuits, Learned Semantics: How Fine-Tuning Creates Evasion Vulnerabilities Invisible to Standard Evaluation