本文首次对智能体AI生态系统中的工具克隆现象进行了大规模测量研究。随着大型语言模型(LLM)智能体通过公共市场获取外部工具(如模型上下文协议(MCP)工具和Skills工具),工具数量激增,但其中大量工具可能源自克隆、轻度修改或共享模板,导致生态系统多样性的虚假高估。这种隐藏的重复性会污染基准测试的数据划分、传播易受攻击的实现、扭曲工具使用泛化的测量结果,并引发溯源、归属和知识产权问题。研究团队从多个公共平台收集了统一数据集,涵盖7,508个MCP仓库(含87,564个工具)和1,353个Skills仓库(含12,447个工具),总计8,861个仓库和100,011个工具条目。为了测量实现层面的重复,他们构建了仓库级审计流水线,采用互补的词法相似度和模糊结构相似度度量,并计算了MCP之间、Skills之间以及MCP与Skills之间的成对相似度。此外,他们从每个生态系统的不同相似度区间中手动验证了各100个样本对,以校准高相似度反映真实代码克隆的频率。结果表明,克隆并非孤立现象:高相似度区域在所有对比设置中均出现,且MCP生态系统中60%的高Jaccard候选和85%的高ssdeep候选被手动验证为克隆。这些发现表明,工具克隆是智能体工具生态系统中普遍且严重的隐藏重复来源。研究进一步建议,在测量工具多样性或构建评估拆分时,应纳入仓库来源和实现相似度因素。该工作对智能体安全、基准测试设计和数据集构建具有重要参考价值。
💡 推荐理由: 揭示了Agent工具市场中克隆泛滥的严重程度,提醒安全团队:被广泛复用的克隆工具可能隐藏相同漏洞,且干扰安全评估的准确性。
🎯 建议动作: 关注工具克隆对Agent安全测试的影响,在内部评估中考虑仓库来源和实现相似度,避免基于表面多样性的误判。