本文针对2023年以来出现的新型Web Agent(基于大型语言模型的机器人)展开研究。这类Agent能够自动化执行复杂网页任务,超越传统的Selenium、Puppeteer等自动化工具,利用LLM能力绕过反机器人机制、模仿人类行为,甚至可从用户本地机器直接操作,给网站管理员带来检测难题。尽管目前已有多种商业和开源反机器人机制(如robots.txt、CAPTCHA、工作量证明、Cloudflare的专有方案)专门用于拦截此类Agent,但学术界对其实际效果及Agent的隐身能力缺乏系统评估。此外,尚无工作全面研究如何刻画和区分部署在云端与本地的Web Agent。为此,论文作者部署了多个蜜罐网站,每个网站集成一种或多种反机器人机制,并结合网络层、HTTP层、浏览器层的指纹识别技术,提示六种基于LLM的Web Agent访问蜜罐。实验分析得出三个主要发现:(1)部分Web Agent能够绕过所有评估的反机器人机制;(2)所有Web Agent均可通过多层指纹识别与人类区分,且Agent之间也能彼此区分;(3)隐身和反检测机制往往反而增加了Agent的可检测性,而非降低。该研究揭示了现有反机器人手段在新型Agent面前的局限性,并提出了有效的多层级指纹识别方法,为未来检测与防御提供了新思路。
💡 推荐理由: 首次系统评估了LLM驱动的Web Agent对现有反机器人机制的绕过能力,并提出了有效的多层指纹检测方法,对网站安全防御具有直接指导意义。
🎯 建议动作: 研究跟进