#supply-chain-attack 主题 - Cyber Security Daily Radar

👥 作者: Dhruv Pradhan, Sarang Nambiar, Ezekiel Soremekun

该论文研究面向预训练机器学习模型（PTM）托管中心（如 Hugging Face）的供应链攻击，指出攻击者可通过分发恶意 PTM 模型实现远程代码执行。现有基于静态分析的模型扫描器虽能检测部分已知恶意负载，但对新型隐蔽攻击的防御能力有限。作者提出 SHADOWPICKLE，包含三种基于 pickle 反序列化的隐蔽攻击方法，利用 Pickle 虚拟机的外部模块导入机制在执行反序列化时加载恶意代码。其中“覆盖式”攻击（Overwritten variant）通过重写现有模块引用实现绕过，成功规避了 10 个最新扫描器和 4 个模型中心，平均绕过率达 63%，比现有攻击高出 50%。同时，作者构建了 PICKLEBENCH 动态基准测试，可自动向任意良性 PTM 注入 SHADOWPICKLE，其难度比现有三个基准测试高 25.6%。论文最后提出了改进扫描器有效性、限制外部模块导入等安全建议。该研究揭示了当前模型扫描机制的根本局限，对 ML 供应链安全具有重要警示意义。适合安全研究员、ML 平台运维人员及扫描器开发者阅读。

💡 推荐理由: 揭露了主流模型扫描器对隐蔽 pickle 攻击的脆弱性，直接威胁 Hugging Face 等平台的供应链安全，可能导致广泛远程代码执行风险。

🎯 建议动作: 研究跟进：评估内部模型扫描器对 SHADOWPICKLE 的防御能力，并考虑实施模块导入限制等缓解措施

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Chia-Yi Hsu, Chia-Mu Yu, Chun-Ying Huang, Jun Sakuma

本文研究了LLM驱动的代码智能体在软件供应链中引入的新风险。代码智能体越来越多地参与软件开发流程，包括生成代码、选择依赖项和产生包安装命令。当智能体幻觉出一个不存在的包名时，攻击者可以注册该幻觉包名，进而危害安装该包的用户。现有的包幻觉攻击与防御主要集中在自然发生的幻觉、定向依赖操纵或事后包验证上。本文提出了一种高度隐蔽的攻击范式——中性提示攻击（Neutral Prompting Attack, NPA），其核心思想是利用语义上看似良性的指令（如鼓励想象和详尽回答）来增加包幻觉的发生倾向，而不包含显式的恶意意图。与定向依赖操纵不同，NPA不指定攻击者选择的包名，而是通过提示工程使模型的依赖生成行为更倾向于产生推测性的包名。作者在多个面向代码的LLM和包幻觉基准上评估了NPA，实验结果表明NPA不仅提高了幻觉率（Hallucination ASR）和Pip安装率（Pip Install ASR），还改变了幻觉包名的分布，并且能够逃避现有的静态分析、基于LLM和基于智能体的技能防御。这些发现揭示了看似无害的提示能够隐蔽地操纵幻觉行为，从而造成下游的软件供应链风险。本文的主要贡献在于提出并验证了一种新的、难以检测的包幻觉攻击范式，强调了对智能体输入进行安全审查的必要性。

💡 推荐理由: 揭示了一种新型的、通过语义无害提示隐蔽操纵LLM幻觉进行供应链投毒的方法，现有防御手段失效，对使用代码智能体的开发团队构成潜在风险。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xinyu Liu, Yukai Zhao, Xing Hu, Xin Xia

该论文研究了一种针对LLM驱动的自主Agent的新型供应链攻击方法——语义合规劫持（SCH）。随着Agent通过第三方技能市场集成外部功能，攻击面扩大。现有安全审计机制依赖代码扫描识别显式payload或预定义威胁内容，但若恶意行为不含直接注入，而是通过Agent固有的生成能力在运行时动态合成，则可绕过检测。SCH方法将恶意目标转化为非结构化自然语言指令，格式化为必要的合规规则，诱导Agent生成并执行未经授权的代码。论文构建自动化流水线，在三个主流Agent框架和三个基础模型上，结合场景化测试评估攻击有效性。实验表明，在最脆弱配置下，机密泄露成功率达77.67%，远程代码执行（RCE）达67.33%。引入多技能自动优化（MS-AO）进一步提升了攻击效果。由于操作后的技能文件省略了可识别的抽象语法树（AST）特征和显式恶意意图，被扫描工具检测率为0.00%。该研究揭示了Agent供应链中未被充分探索的攻击面，指出需要从基于签名的检测模型向语义意图验证转变。

💡 推荐理由: 该研究首次提出无payload的语义劫持攻击，绕过了现有安全扫描机制，对LLM Agent供应链安全构成严重威胁，推动安全社区重视语义层面的防御。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha

该论文提出了一种名为 Sparse Backdoor 的供应链攻击，能够在预训练图像分类器（包括卷积网络和视觉Transformer）中植入一个理论上不可检测的后门。攻击方法是在每个全连接层的少量列上沿随机方向注入结构化稀疏扰动，从而将触发信号传播到攻击者选择的目标类别，并通过独立的各向同性高斯抖动掩盖该扰动。抖动的作用是产生一个以预训练权重为锚点的干净参考分布，据此形式化定义不可检测性。在预训练分类器满足温和的边际条件时，论文证明了抖动后的参考模型与原始分类器功能等价。进一步，论文证明区分植入了后门的模型与该参考模型至少与Sparse PCA检测问题一样困难，而后者在标准难度假设下是计算不可行的。该保证适用于任何具有白盒参数访问权限的概率多项式时间区分器。

💡 推荐理由: 该研究揭示了机器学习供应链中一种新型后门攻击，能在参数层面实现理论上的不可检测性，对AI模型的可信部署构成严重威胁。安全从业者需关注此类攻击对模型审计和安全性评估的挑战。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#supply-chain-attack

ShadowPickle: Evading Machine Learning Model Scanners via Stealthy Pickle Deserialization Attacks

Harmless Yet Harmful: Neutral Prompting Attacks for Stealthy Hallucination Steering in Agent Skills

Exploiting LLM Agent Supply Chains via Payload-less Skills

Undetectable Backdoors in Model Parameters: Hiding Sparse Secrets in High Dimensions