#bot-detection 主题 - Cyber Security Daily Radar

👥 作者: Iliana Fayolle, Sihem Bouhenniche, Samuel Pélissier, Pierre Laperdrix, Clémentine Maurice, Walter Rudametkin

本文针对2023年以来出现的新型Web Agent（基于大型语言模型的机器人）展开研究。这类Agent能够自动化执行复杂网页任务，超越传统的Selenium、Puppeteer等自动化工具，利用LLM能力绕过反机器人机制、模仿人类行为，甚至可从用户本地机器直接操作，给网站管理员带来检测难题。尽管目前已有多种商业和开源反机器人机制（如robots.txt、CAPTCHA、工作量证明、Cloudflare的专有方案）专门用于拦截此类Agent，但学术界对其实际效果及Agent的隐身能力缺乏系统评估。此外，尚无工作全面研究如何刻画和区分部署在云端与本地的Web Agent。为此，论文作者部署了多个蜜罐网站，每个网站集成一种或多种反机器人机制，并结合网络层、HTTP层、浏览器层的指纹识别技术，提示六种基于LLM的Web Agent访问蜜罐。实验分析得出三个主要发现：（1）部分Web Agent能够绕过所有评估的反机器人机制；（2）所有Web Agent均可通过多层指纹识别与人类区分，且Agent之间也能彼此区分；（3）隐身和反检测机制往往反而增加了Agent的可检测性，而非降低。该研究揭示了现有反机器人手段在新型Agent面前的局限性，并提出了有效的多层级指纹识别方法，为未来检测与防御提供了新思路。

💡 推荐理由: 首次系统评估了LLM驱动的Web Agent对现有反机器人机制的绕过能力，并提出了有效的多层指纹检测方法，对网站安全防御具有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ralf Gundelach, Michael Mühlhauser, Dominik Herrmann

本文研究浏览器自动化框架（如无头浏览器）在网络安全与隐私研究中的使用，以及网站机器人检测脚本对其的干扰问题。尽管自动化浏览器在Web测量中广泛应用，但越来越多的网站部署机器人检测技术，可能导致自动浏览器被屏蔽或返回不同内容，从而威胁测量有效性。已有工作主要关注检测部署本身，而本文重点测量因屏蔽导致的样本丢失。作者对顶级安全、隐私和Web测量会议论文进行文献调查，发现83%的论文完全未提及机器人检测屏蔽问题。为填补这一空白，作者对10,000个网站进行了测量研究，使用四种浏览器配置（共40,000次页面访问），通过定制工具检测网站是否探测自动化特征，并开发了机器人检测技术分类法，测量了各类技术的实际出现频率。结果显示，Chromium无头模式遭遇15%的软屏蔽率，而其他配置为7%。在所有条件下，82%的屏蔽归因于机器人检测（59%由供应商确认，23%根据条件依赖性推断），主要来自集成了机器人检测的提供商，如Cloudflare（37%屏蔽率）和Akamai（26%）。一项头部伪造实验表明，Chromium无头模式特有的屏蔽中75%仅由头部信号引起，但JavaScript环境探测比当前屏蔽率所暗示的更广泛。这些发现表明，机器人检测造成了系统性、与提供商相关的样本丢失，而Web测量社区既未测量也未报告。对特定测量结果的后续影响仍有待未来研究。

💡 推荐理由: 安全分析师需意识到，使用浏览器自动化进行Web测量时，机器人检测会导致样本偏差，甚至影响研究结论的有效性；了解不同浏览器配置的实际屏蔽率和主要检测提供商，有助于改进测量设计。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#bot-detection

On the Internet, Nobody Knows You're an LLM Bot: Unmasking Web Agents with Multi-Layer Fingerprinting

Detecting Bot Detection: Prevalence, Techniques, and Implications for Web Measurement Research