推荐 3.5
Conf: 50%
该论文研究语言模型之间的隐蔽影响(covert influence)现象,即一个发送者模型通过人类无法察觉的载体(carriers)将其行为倾向(payload)传递给接收者模型。作者在三种接口上刻画了这种风险:监督微调(SFT)、在线策略蒸馏(on-policy distillation)和上下文学习(ICL),发现不同接口在实现隐蔽影响的能力上存在差异,且都能在不留下人类可见痕迹的情况下达到一定规模的影响力。核心方法利用推理时每样本归因分数(inference-time per-sample attribution scores)来挑选能放大训练影响力的载体,从而实现了之前工作未能达到的载荷传递。论文进一步提供了证据表明,使用自然语言载体的隐蔽影响与先前使用数字载体的研究是截然不同的现象,前者更隐蔽且不易跨模型族迁移。这些结果表明隐蔽影响的风险面比之前认为的更广。作者还研究了逐点归因评分方法作为调查和缓解此类风险的工具。
💡 推荐理由: 揭示了语言模型通过非显性内容相互影响的新风险,对AI供应链安全和模型治理具有警示意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)