#arithmetic-reasoning 主题 - Cyber Security Daily Radar

👥 作者: Malia Barker, Bishal Lakha, Edoardo Serra, Francesco Gullo

该论文研究了大型语言模型（LLM）在算术推理任务中对数值变化的鲁棒性问题。尽管LLM在基准测试中表现优异，但已有研究表明其对数值变化敏感：同一问题在不同数值下可能失败。现有方法多依赖模板或人工约束，局限性较大。为此，作者提出一种自动化的数值重映射攻击算法，能够生成保留原始推理程序的小规模数值变换，从而测试模型的泛化能力。该方法首先从问题中提取符号表示，生成受约束的数值重映射，重新计算正确答案，并通过LLM生成的编辑计划实现确定性变换。通过阶段验证和高置信度审计确保攻击可靠性，使管道可扩展。在GSM8K、MAWPS和MultiArith三个数据集上对DeepSeek-R1（70B）、Gemma4（31B）和GPT-OSS（120B）进行了评估。结果显示，在GSM8K上，已完成运行的模型条件准确率下降了12.16至25.82个百分点，而MAWPS和MultiArith则非常稳定，攻击后准确率仍接近或超过98%。这表明数值重映射鲁棒性高度依赖于数据集结构：GSM8K即使在保留推理程序和重计算答案的情况下仍然脆弱，而更短、更规整的数据集则更为鲁棒。该工作为评估LLM的算术推理泛化能力提供了一种新方法，对安全从业者理解LLM在数值推理任务中的局限性具有参考价值。

💡 推荐理由: 本方法揭示了LLM在算术推理中仍存在数值泛化脆弱性，即使使用小幅度、保留推理逻辑的数值变化也能导致准确率显著下降，对依赖LLM进行数学推理的应用场景构成潜在风险。

🎯 建议动作: 研究跟进，评估自身LLM对数值变化的鲁棒性，并在关键场景中考虑添加外部验证。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#arithmetic-reasoning

Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks