#contamination 主题 - Cyber Security Daily Radar

👥 作者: Yongjie Wang, Xinyue Zhang, Kunhong Yao, Zhiwei Zeng, Kaisong Song, Jun Lin, Zhiqi Shen

本文系统研究了深度研究Agent在公共基准评测中因推理时进行网络搜索而引发的“搜索时污染”（Search-Time Contamination, STC）问题。STC是指Agent在回答问题时，通过Web搜索检索到基准测试的元数据、问题上下文甚至真实答案，从而绕过预期推理过程，导致评测得分虚高。作者定义了三种严重程度递增的污染类型：基准元数据泄漏（Benchmark Metadata Leakage）、问题上下文泄漏（Question-Context Leakage）和显式答案泄漏（Explicit Answer Leakage），并设计了检测算法来识别这些污染并量化其对性能的影响。实验在六个公共基准上评估了现代深度研究Agent，发现STC普遍存在，可导致性能膨胀高达4%。研究结果表明，现有评测可能高估了Agent的真实推理能力。为此，作者倡导采用污染感知的评测实践，包括隔离沙盒、透明的搜索轨迹以及受控的基准访问。本文对于理解LLM Agent能力评估的可靠性具有重要意义，适合AI安全评测、基准设计及Agent开发者阅读。

💡 推荐理由: 该研究揭示了深度研究Agent评测中的严重漏洞，即搜索污染可能导致性能虚高，误导社区对模型真实能力的判断，对LLM能力评估和AI安全评测方法具有重要警示作用。

🎯 建议动作: 关注污染物检测算法并改进内部Agent评测流程，采用隔离沙盒和透明搜索轨迹。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Ali Al-Lawati, Jason Lucas, Dongwon Lee, Suhang Wang

本文探讨了大型语言模型（LLM）基准数据集被预训练语料库污染的问题。污染导致基准数据集无法可靠衡量模型的泛化能力。作者提出基准数据集应具有“抗污染”特性，即数据集对训练不可学习（unlearnable），但支持推理（inference）。为实现这一目标，论文首先强调了基准数据集污染的普遍性，并勾勒了抗污染数据集应具备的属性。其次，作者指出Transformer架构中推理与训练流程的非对称性可被利用来支持抗污染。第三，概述了使这些数据集在不同LLM架构间互操作所需数学进展。最后，呼吁社区通过推进新型抗污染方法、开发支持性方法与平台、以及将抗污染基准纳入现有评估流程来确保LLM评估的可靠性。本文适合LLM研究者、评估工具开发者及关注模型安全性的从业人员阅读。

💡 推荐理由: LLM基准污染直接威胁模型评估的可信度，进而影响安全场景中LLM的能力验证与风险控制。提出抗污染基准有助于构建更可靠的安全评估体系。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#contamination

Search-Time Contamination in Deep Research Agents: Measuring Performance Inflation in Public Benchmark Evaluation

LLM Benchmark Datasets Should Be Contamination-Resistant