#secret-stealing 主题 - Cyber Security Daily Radar

👥 作者: Zi Li, Tian Zhou, Wenze Li, Jingyu Hua, Yunlong Mao, Sheng Zhong

本文揭示了一种针对本地大语言模型（LLM）微调过程的供应链攻击新范式。传统观点认为本地离线微调能够保护训练数据中的敏感信息（如API密钥、个人标识符、金融记录等），但本文证明，通过向模型代码中植入伪装成标准架构定义的后门，攻击者即可实现高成功率的秘密窃取。不同于以往被动的预训练权重投毒（主要依赖概率性语义前缀，难以捕获稀疏高熵的目标），本文提出了一种主动执行劫持方法：攻击者将恶意代码伪装为模型架构定义（如PyTorch模块），在微调时触发执行劫持。核心技术包括：1）确定性全链记忆机制，通过在线张量规则匹配锁定动态计算流中的令牌级秘密；2）值-梯度解耦技术，隐蔽地注入攻击梯度，克服梯度淹没问题迫使模型记忆秘密；3）首次实现攻击者可验证的秘密窃取——通过黑盒查询精确区分真实泄露与幻觉。实验表明，该方法在保持主任务性能的前提下，严格攻击成功率（Strict ASR）超过98%，并能有效绕过差分隐私（DP-SGD）、语义审计和代码审计等防御措施。该研究提醒安全社区，模型代码供应链是不可忽视的攻击面。

💡 推荐理由: 挑战了“本地离线微调天然安全”的假设，揭示了模型代码后门可被用于窃取训练数据中的高价值秘密，对使用第三方模型代码或依赖微调服务的企业构成直接威胁。

🎯 建议动作: 审阅内部微调流程中使用的模型代码来源，实施代码审查与完整性验证；评估是否引入额外的运行时监控以检测异常梯度或执行流。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#secret-stealing

Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors