#ai-crawler 主题 - Cyber Security Daily Radar

👥 作者: Steven Seiden, Triss Ren, Caroline Zhang, Taein Kim, Enze Liu, Emily Wenger

本论文提出一种新方法，通过部署动态网站并嵌入唯一诱饵令牌（canary tokens）来识别与大型语言模型（LLM）训练或查询相关的网络爬虫。网站为每个访问的爬虫分配一个独特令牌，随后研究人员向LLM提问关于网站内容的问题，若LLM输出中包含该令牌，即可建立爬虫与LLM之间的数据流关联。该方法不依赖机构自愿披露或众包报告，具有自动化和可扩展优势。实验在22个生产级LLM系统上验证，成功识别出多个未公开的AI爬虫，包括未知来源的数据采集者。该技术为第三方提供了推断爬虫-LLM对的可行途径，有助于网站所有者实施更精准的访问控制策略，应对由AI数据采集引发的稳定性、法律、隐私及伦理问题。

💡 推荐理由: 帮助网站所有者主动发现未公开的AI爬虫，弥补现有Robots Exclusion Protocol等被动机制的不足，增强对数据被LLM滥用的可见性和控制力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#ai-crawler

Identifying AI Web Scrapers Using Canary Tokens