#knowledge-boundary 主题 - Cyber Security Daily Radar

👥 作者: Yijia Fang, Yiqing Feng, Bingyu Li, Mingxun Zhou

本文提出了一种名为 KBF（Knowledge Boundary as Fingerprint）的低成本黑盒审计协议，用于检测大型语言模型（LLM）API 中模型替换或混合路由攻击。在 LLM 生态中，转售 API 和中间商可能欺诈性地将用户请求转发到更便宜的模型（如用 GPT-3.5 代替 GPT-4），而用户无法直接验证。KBF 的核心思想是利用 LLM 在知识边界（knowledge boundary）附近的稳定数值召回率（recall）作为模型指纹。具体方法：设计一组专门的问题，这些问题考察模型对罕见事实或边界知识的回忆能力，通过统计模型回答的正确率，形成稳定的分布特征。作者在 16 个生产级 LLM 端点上进行评估，KBF 成功识别了所有 155 个经济上相关的模型替换案例，且未误报任何相同模型的控制测试。该方法对部署变化（如温度、批次大小）具有鲁棒性，并能检测到混合路由攻击（仅 5-10% 流量被替换时即可识别）。进一步，在针对六个平台 27 个模型单元的影子 API 审计中，发现其中 7 个单元与参考端点的统计特征不一致，不一致主要集中在高级 Claude 端点上。论文的核心贡献是提供了一种无需访问模型内部结构、仅需黑盒查询即可验证模型身份的方法，对于保障 LLM API 服务的透明性和可信度具有重要意义。

💡 推荐理由: LLM API 代理欺诈日益普遍，用户难以验证模型真伪。KBF 提供低成本的审计手段，帮助安全团队和用户检测模型替换攻击，保护服务质量和预算。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#knowledge-boundary

KBF: Knowledge Boundary as Fingerprint for Language Model and Black-Box API Auditing