#evaluation

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Yongjie Wang, Xinyue Zhang, Kunhong Yao, Zhiwei Zeng, Kaisong Song, Jun Lin, Zhiqi Shen

本文系统研究了深度研究Agent在公共基准评测中因推理时进行网络搜索而引发的“搜索时污染”(Search-Time Contamination, STC)问题。STC是指Agent在回答问题时,通过Web搜索检索到基准测试的元数据、问题上下文甚至真实答案,从而绕过预期推理过程,导致评测得分虚高。作者定义了三种严重程度递增的污染类型:基准元数据泄漏(Benchmark Metadata Leakage)、问题上下文泄漏(Question-Context Leakage)和显式答案泄漏(Explicit Answer Leakage),并设计了检测算法来识别这些污染并量化其对性能的影响。实验在六个公共基准上评估了现代深度研究Agent,发现STC普遍存在,可导致性能膨胀高达4%。研究结果表明,现有评测可能高估了Agent的真实推理能力。为此,作者倡导采用污染感知的评测实践,包括隔离沙盒、透明的搜索轨迹以及受控的基准访问。本文对于理解LLM Agent能力评估的可靠性具有重要意义,适合AI安全评测、基准设计及Agent开发者阅读。

💡 推荐理由: 该研究揭示了深度研究Agent评测中的严重漏洞,即搜索污染可能导致性能虚高,误导社区对模型真实能力的判断,对LLM能力评估和AI安全评测方法具有重要警示作用。

🎯 建议动作: 关注污染物检测算法并改进内部Agent评测流程,采用隔离沙盒和透明搜索轨迹。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Yuanfan Li, Qi Zhou, Chengzhengxu Li, Zhaohan Zhang, Chenxu Zhao, Zepu Ruan, Chao Shen, Xiaoming Liu

本文介绍了一个名为 MGTEVAL 的可扩展平台,用于系统评估机器生成文本(MGT)检测器。尽管 MGT 检测领域取得了快速进展,但现有的评估工作往往因数据集、预处理方法、攻击方式和评估指标的碎片化,导致结果难以比较和复现。MGTEVAL 将评估流程组织为四个核心组件:数据集构建、数据集攻击、检测器训练和性能评估。该平台支持通过可配置的大语言模型(LLM)生成 MGT 来构建自定义基准测试,对测试集应用 12 种文本攻击,通过统一接口训练检测器,并报告检测器的有效性、鲁棒性和效率。平台提供命令行和 Web 两种交互界面,用户无需修改代码即可进行便捷的实验。论文的主要贡献在于提供了一个标准化、模块化的评估框架,有助于推动 MGT 检测领域的可复现研究和公平比较。适合从事生成文本检测、对抗样本分析以及 LLM 安全评估的研究人员和工程师阅读。

💡 推荐理由: 提供了标准化的 MGT 检测评估平台,有助于解决当前评估碎片化问题,促进检测器的公平比较和复现,对提升生成文本检测的可靠性和鲁棒性具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)