推荐 5.5
Conf: 50%
本文揭示了一种针对本地大语言模型(LLM)微调过程的供应链攻击新范式。传统观点认为本地离线微调能够保护训练数据中的敏感信息(如API密钥、个人标识符、金融记录等),但本文证明,通过向模型代码中植入伪装成标准架构定义的后门,攻击者即可实现高成功率的秘密窃取。不同于以往被动的预训练权重投毒(主要依赖概率性语义前缀,难以捕获稀疏高熵的目标),本文提出了一种主动执行劫持方法:攻击者将恶意代码伪装为模型架构定义(如PyTorch模块),在微调时触发执行劫持。核心技术包括:1)确定性全链记忆机制,通过在线张量规则匹配锁定动态计算流中的令牌级秘密;2)值-梯度解耦技术,隐蔽地注入攻击梯度,克服梯度淹没问题迫使模型记忆秘密;3)首次实现攻击者可验证的秘密窃取——通过黑盒查询精确区分真实泄露与幻觉。实验表明,该方法在保持主任务性能的前提下,严格攻击成功率(Strict ASR)超过98%,并能有效绕过差分隐私(DP-SGD)、语义审计和代码审计等防御措施。该研究提醒安全社区,模型代码供应链是不可忽视的攻击面。
💡 推荐理由: 挑战了“本地离线微调天然安全”的假设,揭示了模型代码后门可被用于窃取训练数据中的高价值秘密,对使用第三方模型代码或依赖微调服务的企业构成直接威胁。
🎯 建议动作: 审阅内部微调流程中使用的模型代码来源,实施代码审查与完整性验证;评估是否引入额外的运行时监控以检测异常梯度或执行流。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)