推荐 10.5
Conf: 50%
本文提出了一种名为 KBF(Knowledge Boundary as Fingerprint)的低成本黑盒审计协议,用于检测大型语言模型(LLM)API 中模型替换或混合路由攻击。在 LLM 生态中,转售 API 和中间商可能欺诈性地将用户请求转发到更便宜的模型(如用 GPT-3.5 代替 GPT-4),而用户无法直接验证。KBF 的核心思想是利用 LLM 在知识边界(knowledge boundary)附近的稳定数值召回率(recall)作为模型指纹。具体方法:设计一组专门的问题,这些问题考察模型对罕见事实或边界知识的回忆能力,通过统计模型回答的正确率,形成稳定的分布特征。作者在 16 个生产级 LLM 端点上进行评估,KBF 成功识别了所有 155 个经济上相关的模型替换案例,且未误报任何相同模型的控制测试。该方法对部署变化(如温度、批次大小)具有鲁棒性,并能检测到混合路由攻击(仅 5-10% 流量被替换时即可识别)。进一步,在针对六个平台 27 个模型单元的影子 API 审计中,发现其中 7 个单元与参考端点的统计特征不一致,不一致主要集中在高级 Claude 端点上。论文的核心贡献是提供了一种无需访问模型内部结构、仅需黑盒查询即可验证模型身份的方法,对于保障 LLM API 服务的透明性和可信度具有重要意义。
💡 推荐理由: LLM API 代理欺诈日益普遍,用户难以验证模型真伪。KBF 提供低成本的审计手段,帮助安全团队和用户检测模型替换攻击,保护服务质量和预算。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)