#vision transformer 主题 - Cyber Security Daily Radar

👥 作者: Ngela Landon Ntung, Floride Tuyisenge, Jema David Ndibwile

本研究针对人脸活体检测（Face Presentation Attack Detection, PAD）系统中存在的种族偏倚问题，系统比较了Vision Transformer（ViT）架构与传统卷积神经网络（CNN）在跨种族场景下的表现。实验采用CASIA-SURF跨种族人脸防欺骗数据集（CeFA），评估了三种模型：从头训练的多模态ViT-Tiny、ResNet18 CNN基线、以及在CeFA上微调的预训练DeiT-S。结果显示，DeiT-S以97.27%的总体准确率和0.86%的等错误率（EER）显著优于ResNet18的90.15%准确率。公平性方面，DeiT-S将非洲和东亚受试者间的平均分类错误率（ACER）差距缩小至0.13%，相比LBP基线方法的0.75%降低了83%。尤其值得注意的是，ResNet18对未见过的中亚受试者产生10.44%的BPCER（错误接受率），而DeiT-S仅为2.89%，泛化性能提升3.6倍。这表明预训练ViT架构不仅能提升PAD准确率，还能显著降低跨人口群体的性能差距，实现更公平的泛化。研究结论为：架构设计是影响PAD系统跨种族公平性的关键因素，为开发无偏生物认证系统提供了重要参考。

💡 推荐理由: 人脸活体检测系统在不同肤色人群间存在显著性能差异，可能导致安全漏洞或歧视。本文首次系统比较ViT与CNN在跨种族PAD中的表现，证明ViT能大幅缩小种族间错误率差距并提升泛化能力，对构建更公平、更可靠的生物认证系统具有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#vision transformer

Architectural Bias in Face Presentation Attack Detection: A Comparative Study of Vision Transformers and Convolutional Neural Networks