#data-valuation 主题 - Cyber Security Daily Radar

👥 作者: Ruei-Hau Hsu, Hsuan-Cheng Su, Yi-An Yu

联邦学习（FL）是一种去中心化的机器学习范式，允许多个参与方在不共享原始数据的情况下协同训练全局模型。由于各参与方数据质量参差不齐，如何公平地评估每个数据提供者的贡献（即数据估值）成为保障FL公平性的关键问题。现有工作常引入沙普利值（Shapley value）概念，通过测量包含或排除某本地模型参数对全局模型性能的影响来量化贡献。然而，传统的贡献度测量由聚合器或中心化验证者执行，该验证者可能受组织控制而伪造结果，导致估值不公平。本文提出一个具有强公平性的可验证数据估值框架，其核心思想是让所有参与者（数据提供者）都能独立验证贡献度测量结果的正确性，从而杜绝伪造可能性。框架基于沙普利值，但设计了一套可验证的计算协议，确保任何参与方均能对聚合器计算的估值进行校验，而无需信任中心化实体。作者通过理论分析证明了框架满足强公平性（即无法伪造或篡改估值结果）和安全性，并通过实验评估了计算和通信开销，表明其在合理资源消耗下可实现可验证性。该工作为FL中的数据估值提供了可信、公平的解决方案，尤其适用于对隐私和公平性要求高的场景。

💡 推荐理由: 联邦学习中数据估值的可信性直接影响参与方的信任和合作意愿；本方案通过可验证机制消除对中心化验证者的依赖，有效抵御恶意聚合器篡改贡献度，增强联合建模的公平性与安全性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhaoyu Wang, Pingchuan Ma, Zhantong Xue, Yuguang Zhou, Qixin Zhang, Xiaoqin Zhang, Shuai Wang

数据估值是数据市场中的核心任务，Shapley值归因用于决定买方的付款如何在数据提供者之间分配。传统上，市场运营商独立执行归因，但要求参与者和外部审计员信任无法在底层私有数据上独立重算的分数。零知识证明（ZKP）理论上可以协调隐私与可验证性之间的冲突，但现有ZK估值系统由于证明时间过长或需要公开验证集而无法满足实际市场需求。本文提出ZK-Value，一个实用的端到端ZK数据估值系统。系统通过完全协同设计的架构解决可扩展性瓶颈：(1) LSH-Shapley，一种基于局部敏感哈希的估值原语，用每个桶的碰撞计数替代昂贵的成对距离度量，显著降低计算复杂度；(2) ZK-LSH-Shapley，一个定制的ZKP协议，通过将碰撞计数编码为桶级直方图而非朴素成对张量，大幅减少见证大小，从而降低证明开销；(3) 结构性的证明系统优化，包括超预言机批处理和稀疏性跳过，进一步加速证明生成。在12个标准数据集上的实验表明，ZK-Value的估值质量与当前最先进的KNN-Shapley基线相当（AUROC差异在0.033以内），证明生成时间从数秒到数分钟，比专门设计的ZK基线快12.6到68.1倍，验证时间低于4.6秒。该工作为数据市场中隐私保护且可验证的数据估值提供了实用的解决方案。

💡 推荐理由: 安全从业者关注：ZK-Value解决了数据市场中的隐私与可验证性矛盾，使零知识证明在数据估值场景中实用化，相关技术可推广至其他需要隐私保护计算验证的场景。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#data-valuation

Poster: Verifiable Data Valuation with Strong Fairness in Horizontal Federated Learning.

ZK-Value: A Practical Zero-Knowledge System for Verifiable Data Valuation