#captcha

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Ruijie Zhao 0001, Xianwen Deng, Yanhao Wang, Zhicong Yan, Zhengguang Han, Libo Chen 0001, Zhi Xue, Yijun Wang

文本验证码(text-based captcha)作为一种区分人类用户与机器人的安全机制,虽然已面临多种攻击方法,但仍被广泛使用。近年来,基于深度学习的验证码破解器取得了显著效果,但其高度依赖大量人工标注数据,成本高昂且耗时。此前的一些工作试图通过有限的标注数据集构建易用的破解器,但受限于低效的预处理流程以及对具有复杂安全特性的验证码的识别能力不足。本文提出了一种名为 GeeSolver 的通用、高效且省力的文本验证码破解器,其核心思想是:许多难以攻破的验证码方案通过“破坏”标准字体来增加难度,这种破坏类似于图像中的遮挡(mask)。受此启发,作者利用掩码自编码器(Masked Autoencoder, MAE)架构,让模型从验证码图像中未被遮挡的部分学习潜在表示,从而推断出对应的字符。具体而言,GeeSolver 包含一个 ViT(Vision Transformer)编码器作为潜在表示提取器,以及一个精心设计的解码器用于验证码识别。编码器通过 MAE 范式进行预训练,使其能够仅从局部信息(即未被遮挡的部分)提取出足以推断字符的潜在表示。随后,编码器参数被冻结,利用少量标注验证码和大量未标注验证码,通过半监督学习训练解码器。实验在真实世界的验证码方案上进行,结果表明:GeeSolver 在使用少量标注数据的情况下,大幅超越了当前最先进的方法;同时,它效率极高,使用桌面级 CPU 可在 25 毫秒内破解一个验证码,使用 GPU 仅需 9 毫秒。此外,得益于潜在表示提取能力,GeeSolver 成功破解了先前难以攻击的验证码方案,证明了其通用性。作者希望这项工作能帮助安全专家重新审视文本验证码的设计与可用性。代码已开源。

💡 推荐理由: 该研究展示了自监督学习显著降低了文本验证码破解的门槛,即使只有少量标注数据也能高效攻击复杂验证码,迫使安全从业者重新评估验证码的安全性。

🎯 建议动作: 研究跟进,验证码设计者需评估新型自监督学习方法对自身方案的影响,考虑引入行为验证、多模态验证或更复杂的图灵测试。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)