#ai-agent 主题 - Cyber Security Daily Radar

👥 作者: Vishisht Choudhary, Lukas Schmidt, Anne Zoë Kenntner, Feras Skhab, Michel Osswald, Jens Ernstberger

该论文针对大规模部署的机器人检测器将流量视为二元分类（人类或机器人）的假设提出了质疑。随着AI代理通过浏览器自动化工具（如Playwright）浏览网页，这类流量既不属于人类也不属于传统机器人，二元分类器在结构上无法表达这种第三类流量。论文提出了一个三分类检测框架，将流量划分为人类、机器人和AI代理，并论证了二元与代理之间的混淆是架构性的：二元人类-机器人分类器因为缺少代理类别而错误路由代理会话。在受控基准测试中，MLP二元分类器将39.1%的真实AI代理误判为人类，SAINT二元Transformer误判34.5%；当添加显式代理类别后，在全部30次运行（3个模型族×10个随机种子）中，代理类别的F1分数达到1.000。为衡量逃避难度，论文构建了一个五级逃避阶梯，包括被动观察、GAN生成轨迹和重放真实人类光标数据（共2299个逃避会话）。在10个种子和3个模型族中，22990个逐种子预测中代理的漏检为零。判别信号源于浏览器自动化的伪影而非代理推理的证据：Playwright不会发射物理输入设备产生的原始指针移动和滚轮增量流，这种缺失特征在轨迹操作后依然存在。对大小为1到5的所有特征子集的穷举搜索（9401个梯度提升树）表明，仅两个行为特征（mouse_event_rate和teleport_click_ratio）在每一级逃避水平下都能实现100%的代理召回率，代理精度为0.994；五个特征将宏F1提升到0.991。该信号是冗余编码的：移除teleport_click_ratio后代理检测仍保持100%。单特征设置退化，仅通过将分类器坍缩为总是预测“代理”来标记所有代理。两个特征就能稳健地隔离代理；五个特征能在宏F1≥0.99下区分所有三类流量。论文明确指出这一信号源于浏览器自动化工具的物理行为缺失，而非代理本身的高级智能。该研究为AI代理检测提供了可解释、可落地的特征工程基础，适合Bot检测研究者、安全运营人员以及浏览器自动化工具开发者阅读。

💡 推荐理由: AI代理正在成为网络流量中不可忽视的新类别，传统二元bot检测会将它们误判为人类，造成防御盲区。该论文首次系统性证明三类分类的必要性，并给出极简特征集，可直接启发新一代代理检测产品设计。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Qinying Wang, Yong Yang, Yuan Chen, Shouling Ji, Mathias Payer

该论文首次系统研究了新兴支付协议x402的安全性问题。x402扩展了HTTP 402，为Web API和自主AI代理提供支付能力，其核心设计是将支付证明验证和链上结算委托给第三方促进者（facilitators），以实现跨商家的共享支付基础设施。然而，这种集中化信任模型引入了一个单点故障，一旦facilitator存在缺陷，可能波及所有依赖它的商家。作者通过对实际部署的facilitator进行深入分析，归纳了八项安全规则，涵盖授权正确性和执行安全性。在此基础上，他们发现了四种新型攻击向量：免费购物（攻击者可绕过支付获取服务）、资产盗窃（窃取facilitator持有的加密资产）、服务拒绝（阻止合法支付处理）和Gas滥用（恶意消耗赞助商支付的Gas费用）。这些攻击利用了facilitator实现中的逻辑漏洞和验证缺失，导致商家直接经济损失、facilitator资产损失、无限制的Gas消耗以及支付服务中断。为评估影响面，作者开发了一款半自动化黑盒测试工具，并将其应用于15个主流facilitator（这些平台合计服务超过6万名卖家和36万名买家）。测试结果令人震惊：所有15个facilitator均存在违反安全规则的行为。作者已向受影响方（包括Coinbase）负责任的披露，相关方已承认问题并采取缓解措施。此外，作者通过对超过1.19亿笔Base和Solana区块链上的交易进行实证分析，量化了x402的采用规模、facilitator的中心化程度以及生态系统层面的风险指标。该研究揭示了当前x402生态中的重大安全隐患，强调了在去中心化支付基础设施中加强安全验证的必要性。

💡 推荐理由: x402正被主要供应商快速采用，且涉及真实的经济活动（主网交易）。该研究发现的漏洞可能导致商家和facilitator直接经济损失，影响面广（60K+卖家、360K+买家）。安全从业者需关注此类新兴支付协议的风险，并在内部评估或部署时实施类似安全审计。

🎯 建议动作: 若组织涉及或计划使用x402支付，应立即根据论文中8条安全规则审计其facilitator实现；否则，建议研究跟进并关注厂商安全更新。

排序因子: 有可用补丁/修复方案 (+3) | 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Jintao Huang, Fengqing Jiang, Radha Poovendran, Zhiqiang Lin

该论文提出了CyberChainBench，一个用于评估基于大型语言模型（LLM）的智能合约安全代理的基准测试。基准测试涵盖三个互补任务：漏洞检测、利用生成和补丁合成。它基于来自DeFiHackLabs的541个真实世界利用事件构建，跨越9个EVM兼容链。每个案例锚定到特定区块，包含结构化真实数据（漏洞类型、定位、攻击者利润）。代理通过Harbor编排的隔离评估环境与历史区块链状态交互，使用工具读取代码、追踪交易并在主网分叉上验证利用。利用按历史分叉上的经济影响分级；补丁通过在可代理升级的子集上重放历史攻击和合法交易作为失败测试预言机进行验证。论文定义了五类漏洞分类法，并评估了多种代理-模型配置。结果显示明显难度梯度：最佳配置在检测上得分37.5%，利用上43.7%，但补丁上仅23.4%。顶级代理（Codex with GPT-5.5）在200个利用案例中实现总计5740万美元的利用利润，每个案例成本2.39美元。该基准为智能合约安全研究提供了标准化评估平台，揭示了当前LLM代理在自动化安全任务中的能力与局限。适合安全研究员、智能合约开发者和AI安全交叉领域从业者阅读。

💡 推荐理由: 首个端到端评估LLM代理在智能合约安全上真实世界利用的攻击-防御能力的基准，揭示了当前AI代理在自动补丁生成上的显著短板，为后续研究提供了明确方向和数据基础。

🎯 建议动作: 研究跟进，评估自身智能合约安全流程中引入AI代理的可行性及局限。

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xihan Xiong, Zelin Li, Wei Wei, Qin Wang, William Knottenbelt, Zhipeng Wang

本研究针对 ERC-8004 协议——首个为 AI 代理经济设计的无许可信任层——进行了首次实证分析。该协议通过链上身份、声誉和验证三个注册表，旨在解决自主 AI 代理跨组织交易时的信任评估问题。尽管协议被快速采用，但其实际有效性和安全性未经检验。作者在以太坊、BNB Smart Chain (BSC) 和 Base 三条区块链上，从协议部署至 2026 年 5 月 13 日期间，全面爬取链上事件、链下 JSON 文件以及 x402 支付交易记录。身份注册方面，发现绝大多数注册仅是占位符，仅有少量代理（以太坊 3%、BSC 4%、Base 15%）具备有效注册文件且至少包含一个实时服务端点。声誉注册方面，当前部署的注册表无法提供可信的信任信号：声誉值不可通约（例如正负反馈直接加和），反馈记录极少基于可验证的链上交互，且声誉可通过低成本操纵（如自评或刷分）任意篡改。与这些设计缺陷一致，大量评审者表现出协作性 Sybil 行为（以太坊 73.6%、BSC 59.2%、Base 90.6%）。在移除标记为 Sybil 的反馈后，各链上分别有 15.5%、72.3% 和 89.4% 的已评级代理不再拥有任何有效反馈。基于这些发现，作者提出了对 ERC-8004 未来版本的具体改进建议，包括引入可验证交互凭证、声誉评分标准化以及抵抗 Sybil 攻击的机制。本研究为 AI 代理市场的信任协议设计提供了实证基础和方向性指导。

💡 推荐理由: 该研究首次以实证方式揭示 ERC-8004 信任层的严重缺陷——绝大多数代理名不副实、声誉系统完全可被 Sybil 攻击操纵，直接威胁依赖该协议的 AI 代理经济的安全性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Francesco Balassone, Víctor Mayoral-Vilches, María Sanz-Gómez, Paul Zabalegui-Landa, Stefan Rass, Davide Quarta, Daniel Sanchez-Prieto, Marina Oteiza-Álvarez, Almerindo Graziano, Lauren Min Kim, MinSeok Choi

该研究挑战了网络安全威胁情报（CTI）中基于战术、技术与程序（TTP）进行攻击归因的传统假设。传统方法认为每个攻击者会留下独特的操作指纹。研究者利用其开发的网络安全超级智能（CSI）框架，部署了配置为五个高级持续性威胁（APT）组织（APT28、APT29、APT41、APT44和Lazarus Group）的智能体，在CYBER RANGES提供的两个网络靶场（企业网络和军事基础设施）中，对抗AI驱动的防御者（使用Wazuh、Velociraptor、Elasticsearch等防御软件）。在20次实验中，无论APT模型或防御者模型如何，均出现二元模式：所有10次企业网络实验均被攻陷（每实验2至12台主机），而所有10次军事网络实验均成功防御或陷入僵局。更关键的是，在8次企业网络实验中，攻击者独立地将防御者自己的Velociraptor端点管理平台武器化为命令与控制（C2）通道，这是一种趋同行为，未在任何威胁情报配置文件中编码。研究者论证，在AI时代，只要拥有合适的模型、支撑框架和智能体配置，就可以部署智能体，使得像国家级APT一样行动的门槛大幅降低：不仅国家行为体，个人也可以模仿常见的威胁行为者，从而从根本上破坏基于TTP的归因基础。本文主要贡献在于通过实验揭示了AI驱动的对手模拟可能产生的趋同攻击行为，并指出TTP归因在未来可能不再可靠。

💡 推荐理由: 本研究直接质疑了CTI中核心的TTP归因方法，表明AI驱动的对手可以模仿多种APT行为并产生非编码的趋同行为，导致归因失效。这对安全运营、威胁猎杀和归因分析有深远影响，需重新评估传统TTP模型的可靠性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ben Kereopa-Yorke, Guillermo Diaz, Holly Wright, Reagan Johnston, Ron F. Del Rosario, Timothy Lynar

本文定义了一种名为“Oracle Poisoning”的新攻击类别，攻击者通过破坏AI代理在运行时通过工具使用协议查询的结构化知识图谱，导致代理在正确推理的前提下得出错误结论。与提示注入不同，Oracle Poisoning操纵的是代理推理所依据的数据，而非指令。作者针对一个包含4200万节点的生产级代码知识图谱演示了六种攻击场景，首次在真实规模的代理系统中提供了知识图谱投毒的经验性证据，区别于传统的CTI嵌入投毒。主要评估使用来自三家提供商的九个模型的真实SDK工具调用（每个模型N=30），模型自主调用图查询工具并从结果中推理。结果明确：在中等攻击者复杂度（L2）下，每个测试模型以100%的概率信任中毒数据，在270次定向查询试验中有269次接受了伪造的安全声明。在开放式提示下，信任率下降至3-55%，证实提示框架是一个混杂变量；论文报告了两种条件。攻击者复杂度梯度揭示了离散的转折点，即信任从0%跃升至100%所需的最低技能水平，将攻击重新定义为“不是是否发生，而是程度如何”的问题。受控的交付模式比较表明，内联评估会产生假阴性：GPT-5.1在内联下显示0%信任，但在模拟和真实代理工具使用下均为100%，证明交付模式是一阶混杂变量。作者评估了五种防御措施；只读访问控制消除了直接修改向量，其余四种是部分且模型依赖的。对另外四个平台的分析表明，该攻击可能在知识图谱生态系统中普遍存在。

💡 推荐理由: 揭示了AI代理的一个关键新攻击面：数据源投毒可绕过推理完整性，且当前模型普遍缺乏防御能力。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#ai-agent

What Does It Take to Detect an AI Agent? Minimal Feature Sets for Behavioral Detection under Browser Automation

When HTTP 402 Meets the Blockchain: Risks on Emerging x402 Payments

CyberChainBench: Can AI Agents Secure Smart Contracts Against Real-World On-Chain Vulnerabilities?

Can Trustless Agents Be Trusted? An Empirical Study of the ERC-8004 Decentralized AI Agent Ecosystem

Synthetic APTs: the Collapse of TTP-Based Attribution

Oracle Poisoning: Corrupting Knowledge Graphs to Weaponise AI Agent Reasoning