#latent-space

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Marte Eggen, Eirik Reiestad, Kristian Gjøsteen, Inga Strümke

本文系统性地研究了现代神经网络中后门攻击的密码学不可检测性问题。传统后门攻击往往依赖特定的触发器模式,且容易被防御机制检测。受近期密码学进展启发,作者提出了一种基于潜在空间方向的攻击框架,将后门通道建模为网络在训练过程中学习的潜在方向。核心创新在于:将不可检测性问题转化为一个假设检验问题——攻击者无需引入外部结构,而是利用网络自身几何中已存在的方向作为后门载体。通过在标准图像分类数据集上对ResNet和Vision Transformer架构进行实验,该方法在保持干净样本精度几乎不下降的同时实现了持续的高攻击成功率,并能抵抗多种主流的后训练防御(如剪枝、微调、神经元清洗等),除非将模型完全破坏。作者进一步从理论上论证,由于模型参数的分布复杂,区分后门模型与干净模型的假设检验在实践中是难解的,从而建立了后门的密码级不可检测性。该工作表明,密码学意义上的后门并非只能用于理论架构,而是现代深度学习模型潜在空间固有几何属性的直接体现,对AI安全领域具有重要的理论推进价值。

💡 推荐理由: 该研究首次在实用级神经网络(ResNet、ViT)上实现了密码学意义上的不可检测后门,挑战了当前多数防御机制的有效性基础。安全团队需认识到潜在空间中的后门可能难以通过统计检测发现,对模型供应链安全、白盒审计提出新课题。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)