推荐 5.5
Conf: 50%
本文研究了大语言模型(LLM)推理系统的指纹识别问题。作者指出,LLM 的行为不仅取决于模型本身,还受推理系统中各组件(如推理引擎、注意力后端和硬件平台)的影响。不同组件的实现存在细微差异,导致同一模型在不同系统上运行时产生微小的数值偏差。尽管已有工作从理论上证明了这些偏差的存在,但尚未探讨其安全影响。本文首次系统地展示这些偏差具有组件特异性,并能传播到可观测的文本输出,从而使得任何能够查询模型的攻击方都能识别出推理系统。基于此观察,作者提出了一种指纹识别方法,通过分析 LLM 的提示-响应行为来识别推理系统中的组件。实验评估表明,即使在非零温度下运行,该方法也能可靠地识别推理引擎、注意力后端和底层硬件平台。进一步分析表明,彻底防止指纹识别在本质上非常困难,因为需要消除硬件和软件栈之间的数值差异。作为替代,作者提出了部分缓解措施并讨论了其效果。本文的核心贡献在于揭示了LLM推理系统的一个新安全风险,即系统组件的暴露可能被用于模型窃取、对抗攻击或环境探测。研究结果对部署LLM的云服务商和终端用户具有重要警示意义,提示需要关注推理基础设施的隐秘信息泄露问题。
💡 推荐理由: 首次从安全角度系统揭示LLM推理系统组件的可指纹性,攻击者可能利用该信息实施模型窃取、对抗性操纵或针对性攻击;即使无法完全防御,了解风险对设计防御策略至关重要。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)