#vision-transformer

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Xiaoyun Xu, Shujian Yu, Zhuoran Liu 0001, Stjepan Picek

本文针对视觉 Transformer(ViT)在对抗攻击下的脆弱性展开系统研究。ViT 已成为现代视觉-语言模型的基础架构,但其对抗鲁棒性不足,需要专门的对抗训练(AT)策略。作者首先指出现有最先进的 AT 方法(如 Generalist 和 DBAT)与 ViT 存在显著不兼容性。接着,论文从互信息(MI)角度进行理论分析,证明在基于自编码器的自监督预训练中,对抗样本与其潜在表示之间的互信息应通过导出的 MI 界限进行约束。基于此洞察,作者提出一种自监督 AT 方法 MIMIR,该方法通过掩码图像建模和自编码器,引入互信息惩罚项来增强对抗预训练。在 CIFAR-10、Tiny-ImageNet 和 ImageNet-1K 上的大量实验表明,MIMIR 能够持续提升自然准确率和鲁棒准确率,在 ImageNet-1K 上全面超越现有最先进方法。此外,MIMIR 对未知攻击和常见损坏数据表现出卓越的鲁棒性,还能抵御完全知晓防御机制的自适应攻击。代码和训练模型已开源。本研究适合对抗机器学习、视觉安全领域的研究人员和工程师阅读。

💡 推荐理由: ViT 在视觉任务中广泛应用,但对抗鲁棒性不足。MIMIR 提供了一种新的自监督对抗训练范式,通过互信息约束显著提升了鲁棒性,且对未知攻击有效,具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Tatsuya Chuman, Yousuke Udagawa, Hitoshi Kiya

该论文提出了一种隐私保护的衣物分类方案,旨在实现安全的人员中心控制(OCC)系统。尽管利用摄像头图像进行暖通空调(HVAC)控制以优化热舒适度的研究已广泛开展,但先前的工作未考虑对居住者图像的隐私保护。虽然已有多种隐私保护方法被提出用于图像分类,但应用传统方案会导致严重的精度下降。本文引入了一种基于Vision Transformer(ViT)的隐私保护分类方法,应用于衣物隔热估计。在根据衣物隔热类别标注的DeepFashion数据集上的实验表明:传统的基于像素的方法遭受严重的精度下降,而本文方案在加密图像上保持高精度,在所有类别上均未出现相比明文图像的精度退化。该研究适合于从事智能建筑、隐私保护机器学习、计算机视觉以及暖通空调控制的研究人员和工程师阅读。

💡 推荐理由: 该研究为智能建筑中的人员控制提供了隐私保护方案,解决了摄像头图像用于热舒适控制时的隐私泄露问题,且保持了高分类精度。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)