推荐 5.5
Conf: 50%
本文揭示了一个存在于当前主流大语言模型(LLM)推理栈中的隐写通道,该通道无需修改模型权重、采样代码或输出分布即可实现秘密通信。其核心原理是利用确定性解码过程中的伪随机数生成器(PRNG)在逆变换采样时产生的种子依赖性:PRNG根据种子生成一系列令牌级别的概率区间,这些区间可以从生成的文本中唯一重构。发送方在生成前将秘密消息编码为PRNG种子,接收方则通过穷举搜索种子空间,重构概率区间并恢复种子,从而提取隐藏载荷。文章形式化了两种操作模式:已知提示(prompt)模式下,双方共享提示,可实现精确区间重构和完美种子恢复(通过强制对齐);未知提示模式下,仅能获得生成文本,但通过近似区间重构结合最大命中计数评分策略,仍能从足够长的输出中可靠恢复种子。作者在6个模型家族和5个异构文本域上进行了广泛实验:已知提示模式下,从完整的2^32候选空间中恢复32位种子,在300个令牌内、单GPU上35秒内可达100%准确率(因模型和文本域而异);未知提示模式下,在600-800个令牌时恢复准确率接近完美,耗时约12秒。文章还分析了提示策略、分词歧义和采样超参数对通道可靠性的影响,并讨论了应用场景:一方面实现了32位隐写传输,另一方面证明忽略提示并非有效的安全假设。
💡 推荐理由: 该研究揭示了一个存在于主流LLM推理栈中的隐写通道,无需修改模型结构或采样代码,可能被用于绕过内容审核或提取敏感信息,对LLM服务的安全设计提出了新挑战。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)