#arithmetic-reasoning

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Malia Barker, Bishal Lakha, Edoardo Serra, Francesco Gullo

该论文研究了大型语言模型(LLM)在算术推理任务中对数值变化的鲁棒性问题。尽管LLM在基准测试中表现优异,但已有研究表明其对数值变化敏感:同一问题在不同数值下可能失败。现有方法多依赖模板或人工约束,局限性较大。为此,作者提出一种自动化的数值重映射攻击算法,能够生成保留原始推理程序的小规模数值变换,从而测试模型的泛化能力。该方法首先从问题中提取符号表示,生成受约束的数值重映射,重新计算正确答案,并通过LLM生成的编辑计划实现确定性变换。通过阶段验证和高置信度审计确保攻击可靠性,使管道可扩展。在GSM8K、MAWPS和MultiArith三个数据集上对DeepSeek-R1(70B)、Gemma4(31B)和GPT-OSS(120B)进行了评估。结果显示,在GSM8K上,已完成运行的模型条件准确率下降了12.16至25.82个百分点,而MAWPS和MultiArith则非常稳定,攻击后准确率仍接近或超过98%。这表明数值重映射鲁棒性高度依赖于数据集结构:GSM8K即使在保留推理程序和重计算答案的情况下仍然脆弱,而更短、更规整的数据集则更为鲁棒。该工作为评估LLM的算术推理泛化能力提供了一种新方法,对安全从业者理解LLM在数值推理任务中的局限性具有参考价值。

💡 推荐理由: 本方法揭示了LLM在算术推理中仍存在数值泛化脆弱性,即使使用小幅度、保留推理逻辑的数值变化也能导致准确率显著下降,对依赖LLM进行数学推理的应用场景构成潜在风险。

🎯 建议动作: 研究跟进,评估自身LLM对数值变化的鲁棒性,并在关键场景中考虑添加外部验证。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)