#web-measurement 主题 - Cyber Security Daily Radar

👥 作者: Ralf Gundelach, Michael Mühlhauser, Dominik Herrmann

本文研究浏览器自动化框架（如无头浏览器）在网络安全与隐私研究中的使用，以及网站机器人检测脚本对其的干扰问题。尽管自动化浏览器在Web测量中广泛应用，但越来越多的网站部署机器人检测技术，可能导致自动浏览器被屏蔽或返回不同内容，从而威胁测量有效性。已有工作主要关注检测部署本身，而本文重点测量因屏蔽导致的样本丢失。作者对顶级安全、隐私和Web测量会议论文进行文献调查，发现83%的论文完全未提及机器人检测屏蔽问题。为填补这一空白，作者对10,000个网站进行了测量研究，使用四种浏览器配置（共40,000次页面访问），通过定制工具检测网站是否探测自动化特征，并开发了机器人检测技术分类法，测量了各类技术的实际出现频率。结果显示，Chromium无头模式遭遇15%的软屏蔽率，而其他配置为7%。在所有条件下，82%的屏蔽归因于机器人检测（59%由供应商确认，23%根据条件依赖性推断），主要来自集成了机器人检测的提供商，如Cloudflare（37%屏蔽率）和Akamai（26%）。一项头部伪造实验表明，Chromium无头模式特有的屏蔽中75%仅由头部信号引起，但JavaScript环境探测比当前屏蔽率所暗示的更广泛。这些发现表明，机器人检测造成了系统性、与提供商相关的样本丢失，而Web测量社区既未测量也未报告。对特定测量结果的后续影响仍有待未来研究。

💡 推荐理由: 安全分析师需意识到，使用浏览器自动化进行Web测量时，机器人检测会导致样本偏差，甚至影响研究结论的有效性；了解不同浏览器配置的实际屏蔽率和主要检测提供商，有助于改进测量设计。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#web-measurement

Detecting Bot Detection: Prevalence, Techniques, and Implications for Web Measurement Research