#reasoning-trace 主题 - Cyber Security Daily Radar

👥 作者: Yu-An Lu, Ci-Yang Tsai, Yu-Lin Tsai, Raluca Ada Popa, Chia-Mu Yu

本文研究了大型语言模型（LLM）推理痕迹的暴露风险。虽然许多部署系统通过界面层隐藏原始推理痕迹，只向用户暴露摘要或最终答案，以防止能力转移，但作者提出了一种轻量级的上下文引导方法——推理暴露提示（REP）。REP利用影子模型生成的示范，以辅助代码格式包装，诱导目标模型在回答中泄露内部推理痕迹。实验在常见推理数据集、不同目标模型和学生模型蒸馏场景下进行，结果表明REP能显著提高暴露痕迹与原始内部痕迹的相似度，同时保留有用的推理信号。该研究揭示了当前界面级隐藏策略的不足，表明用户仍可通过特定提示技术获取原本不可见的推理过程，从而对LLM的安全性、隐私保护和能力控制构成潜在威胁。

💡 推荐理由: 该研究揭示了LLM推理痕迹即使在界面层隐藏后仍可通过提示泄露，对模型能力保护、隐私泄露和滥用控制具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#reasoning-trace

Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs