#token-rankings 主题 - Cyber Security Daily Radar

👥 作者: Matthew Finlayson, Andreas Grivas, Xiang Ren, Swabha Swayamdipta

本文研究了语言模型API在限制仅输出token排名（即按概率排序的token序列，但不提供具体概率值）时，是否仍然构成能够唯一标识模型的签名。作者发现，对于足够大的k，每个语言模型都有一组唯一的可行top-k排名集合，这可以作为模型的签名。更重要的是，他们证明了这种签名是第一个已知的多项式时间不可伪造签名：找到一个具有相同可行排名集合的模型是NP-hard问题。在安全方面，尽管token排名足以近似窃取模型的最后一层参数（类似于logits的泄露），但通过限制API只返回足够小的k（例如，小于某个阈值），可以防止参数窃取，同时仍然能够提供不可伪造的签名。研究表明，存在一个k值范围，使得API既能展示不可伪造签名（用于模型身份验证），又能防止参数泄露。这项工作为语言模型的安全部署提供了理论依据，尤其是在需要公开模型身份但又要保护模型参数的应用场景中。

💡 推荐理由: 揭示了token排名作为不可伪造签名的潜力，首次从计算复杂性角度证明其安全性，为LLM API的身份认证和参数保护提供了新的理论支撑。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#token-rankings

Token Rankings are Unforgeable Language Model Signatures