#reasoning-trace

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yu-An Lu, Ci-Yang Tsai, Yu-Lin Tsai, Raluca Ada Popa, Chia-Mu Yu

本文研究了大型语言模型(LLM)推理痕迹的暴露风险。虽然许多部署系统通过界面层隐藏原始推理痕迹,只向用户暴露摘要或最终答案,以防止能力转移,但作者提出了一种轻量级的上下文引导方法——推理暴露提示(REP)。REP利用影子模型生成的示范,以辅助代码格式包装,诱导目标模型在回答中泄露内部推理痕迹。实验在常见推理数据集、不同目标模型和学生模型蒸馏场景下进行,结果表明REP能显著提高暴露痕迹与原始内部痕迹的相似度,同时保留有用的推理信号。该研究揭示了当前界面级隐藏策略的不足,表明用户仍可通过特定提示技术获取原本不可见的推理过程,从而对LLM的安全性、隐私保护和能力控制构成潜在威胁。

💡 推荐理由: 该研究揭示了LLM推理痕迹即使在界面层隐藏后仍可通过提示泄露,对模型能力保护、隐私泄露和滥用控制具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)