#bot-detection

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Iliana Fayolle, Sihem Bouhenniche, Samuel Pélissier, Pierre Laperdrix, Clémentine Maurice, Walter Rudametkin

本文针对2023年以来出现的新型Web Agent(基于大型语言模型的机器人)展开研究。这类Agent能够自动化执行复杂网页任务,超越传统的Selenium、Puppeteer等自动化工具,利用LLM能力绕过反机器人机制、模仿人类行为,甚至可从用户本地机器直接操作,给网站管理员带来检测难题。尽管目前已有多种商业和开源反机器人机制(如robots.txt、CAPTCHA、工作量证明、Cloudflare的专有方案)专门用于拦截此类Agent,但学术界对其实际效果及Agent的隐身能力缺乏系统评估。此外,尚无工作全面研究如何刻画和区分部署在云端与本地的Web Agent。为此,论文作者部署了多个蜜罐网站,每个网站集成一种或多种反机器人机制,并结合网络层、HTTP层、浏览器层的指纹识别技术,提示六种基于LLM的Web Agent访问蜜罐。实验分析得出三个主要发现:(1)部分Web Agent能够绕过所有评估的反机器人机制;(2)所有Web Agent均可通过多层指纹识别与人类区分,且Agent之间也能彼此区分;(3)隐身和反检测机制往往反而增加了Agent的可检测性,而非降低。该研究揭示了现有反机器人手段在新型Agent面前的局限性,并提出了有效的多层级指纹识别方法,为未来检测与防御提供了新思路。

💡 推荐理由: 首次系统评估了LLM驱动的Web Agent对现有反机器人机制的绕过能力,并提出了有效的多层指纹检测方法,对网站安全防御具有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ralf Gundelach, Michael Mühlhauser, Dominik Herrmann

本文研究浏览器自动化框架(如无头浏览器)在网络安全与隐私研究中的使用,以及网站机器人检测脚本对其的干扰问题。尽管自动化浏览器在Web测量中广泛应用,但越来越多的网站部署机器人检测技术,可能导致自动浏览器被屏蔽或返回不同内容,从而威胁测量有效性。已有工作主要关注检测部署本身,而本文重点测量因屏蔽导致的样本丢失。作者对顶级安全、隐私和Web测量会议论文进行文献调查,发现83%的论文完全未提及机器人检测屏蔽问题。为填补这一空白,作者对10,000个网站进行了测量研究,使用四种浏览器配置(共40,000次页面访问),通过定制工具检测网站是否探测自动化特征,并开发了机器人检测技术分类法,测量了各类技术的实际出现频率。结果显示,Chromium无头模式遭遇15%的软屏蔽率,而其他配置为7%。在所有条件下,82%的屏蔽归因于机器人检测(59%由供应商确认,23%根据条件依赖性推断),主要来自集成了机器人检测的提供商,如Cloudflare(37%屏蔽率)和Akamai(26%)。一项头部伪造实验表明,Chromium无头模式特有的屏蔽中75%仅由头部信号引起,但JavaScript环境探测比当前屏蔽率所暗示的更广泛。这些发现表明,机器人检测造成了系统性、与提供商相关的样本丢失,而Web测量社区既未测量也未报告。对特定测量结果的后续影响仍有待未来研究。

💡 推荐理由: 安全分析师需意识到,使用浏览器自动化进行Web测量时,机器人检测会导致样本偏差,甚至影响研究结论的有效性;了解不同浏览器配置的实际屏蔽率和主要检测提供商,有助于改进测量设计。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)