推荐 3.6
Conf: 50%
本文研究了语言模型API在限制仅输出token排名(即按概率排序的token序列,但不提供具体概率值)时,是否仍然构成能够唯一标识模型的签名。作者发现,对于足够大的k,每个语言模型都有一组唯一的可行top-k排名集合,这可以作为模型的签名。更重要的是,他们证明了这种签名是第一个已知的多项式时间不可伪造签名:找到一个具有相同可行排名集合的模型是NP-hard问题。在安全方面,尽管token排名足以近似窃取模型的最后一层参数(类似于logits的泄露),但通过限制API只返回足够小的k(例如,小于某个阈值),可以防止参数窃取,同时仍然能够提供不可伪造的签名。研究表明,存在一个k值范围,使得API既能展示不可伪造签名(用于模型身份验证),又能防止参数泄露。这项工作为语言模型的安全部署提供了理论依据,尤其是在需要公开模型身份但又要保护模型参数的应用场景中。
💡 推荐理由: 揭示了token排名作为不可伪造签名的潜力,首次从计算复杂性角度证明其安全性,为LLM API的身份认证和参数保护提供了新的理论支撑。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)