#benchmark-leakage

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Anany Kotawala

本研究揭示了大型基础语言模型在预训练阶段可能无意中记忆了公开的数值基准数据(如金融因子、经济指标、气候数据),导致基于时间截断的评估实际上测量的是模型的记忆能力而非泛化能力。作者提出了 NumLeak 测量框架,该框架结合了对生产环境闭源模型的 API 边界探测(黑盒)和开放因果语言模型的白盒受控验证。实验表明,顶级前沿模型(如 Claude、GPT-4 等)在 Fama-French 市场超额收益等因子上达到 3-seed 池化 Pearson r=0.97-0.99,且五个兄弟因子的波动控制在 25 基点以内;类似的记忆精度也出现在美国失业率、CPI 通胀和 NOAA 温度数据上。然而,当使用最近发布的新数据(holdout)进行测试时,模型解析率骤降至 21-57%,但一旦成功回答,相关性仍保持在约 0.99,这种“拒绝-回忆”不对称性正是记忆通道的典型特征。白盒实验复现了剂量反应关系,并且 logprob 排序能够检测到开放文本生成中遗漏的记忆痕迹,这表明闭源 API 黑盒探测可能会低估该记忆通道的存在。进一步,作者测试了情绪回归任务:Sonnet 模型基于日期预测市场情绪,与真实 Mkt-RF 的相关性为 r=0.74,但在剔除模型自身回忆的数值后,相关性骤降至 r=0.02,证明输出主要由记忆驱动。作为防御,作者提出了一行系统提示指令,在几乎不降低概念和历史查询性能的情况下,阻断了 99.8% 的非自适应单轮后缀攻击。该研究对依赖模型数值输出的金融、经济、气象等应用领域具有重要安全启示,提示开发者和安全团队需重视预训练数据污染带来的记忆泄露风险。

💡 推荐理由: 该研究首次系统量化了大型语言模型对公开数值基准的记忆泄露程度,揭示了评估中隐蔽的漏洞。对安全分析师而言,这意味着模型输出的数值(如金融预测)可能只是训练数据的复述,而非真正的推理能力。攻击者可通过精心设计的 prompt 诱导模型泄露敏感训练数值(如经济指标或内部基准),从而损害基于模型的应用可信度。

🎯 建议动作: 研究跟进,评估自身 LLM 应用对数值记忆泄露的脆弱性,并考虑引入类似的一行系统提示防御,同时对高敏感性数值输出实施额外审查。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)