该论文提出了 GraphIP-Bench,一个用于系统评估图神经网络(GNN)模型窃取攻击与防御的统一基准。作者指出,现有研究因数据集、威胁模型和评估指标不一致而无法回答“窃取GNN有多难”以及“能否阻止”这两个关键问题。GraphIP-Bench 在统一的黑盒协议下集成了12种模型提取攻击、12种防御方法(涵盖水印、输出扰动和查询模式检测三类)、10个公开图数据集(包含同质、异质和大规模图)、3种GNN骨干网络和3种图学习任务,并报告了保真度、任务效用、所有权验证和计算成本等指标。此外,还增加了联合攻击-防御赛道,对每个受保护目标运行所有攻击,并测量提取后替代模型上的水印验证效果。实验结果表明:在中等查询预算下,窃取GNN很容易,且大多数防御未能改变这一现状;多种水印在受保护模型上可靠验证,但在提取的替代模型上几乎失去验证信号,这暴露了单一模型评估遗漏的漏洞;异质图更难以窃取,而目标与替代模型之间的跨架构不匹配会降低但无法阻止提取。论文提供了开源代码。该研究对安全从业者理解GNN模型窃取风险及评估防御有效性具有重要参考价值。
💡 推荐理由: GNN云服务面临模型窃取攻击威胁,而现有评估缺乏统一标准。本文首次系统对比攻击与防御,揭示多数防御无效、水印易被移除等关键发现,为安全团队制定防护策略提供了实证依据。
🎯 建议动作: 研究跟进