#stylometry 主题 - Cyber Security Daily Radar

👥 作者: Usman Rabiu Isah, Laurent Bobelin, Pascal Berthomé

该论文系统研究了YARA规则共享过程中的匿名性问题。YARA规则常用于威胁情报社区共享恶意软件检测规则，社区普遍认为去除元数据（如作者字段）足以保护贡献组织身份。为了验证这一假设，作者从三个主要公共YARA规则库收集了23,305条规则，采用三种互补方法（词汇n-gram的Burrows' Delta、语法AST特征的Caliskan-Islam方法、以及微调后的CodeBERT）训练分类器，沿着四个风格测量维度（个体作者、来源仓库、恶意软件家族、时间漂移）进行推断。实验结果表明：仓库来源几乎可完美恢复（最高99%准确率），个体作者可远高于随机概率被重新识别（76%），恶意软件家族分类达到95%。通过对比完整历史与时间限制子集下的仓库归因任务，发现存在9-18%的准确率差距，初步证明仓库指纹存在时间漂移。进一步针对恶意软件家族内的作者归因实验：在七种测试家族中，五种家族内的作者仍可被重新识别（平均准确率74.6%）。这些发现首次系统证明了YARA规则共享是一个可测量的OPSEC攻击面，仅去除元数据无法缓解该风险。该研究适合威胁情报分析师、安全运营工程师以及开发YARA规则共享平台的人员阅读。

💡 推荐理由: 揭示了威胁情报社区中广泛采用的YARA规则共享存在显著的OPSEC风险，即仅去除元数据无法保护组织或作者身份，可能被对手利用归因攻击。

🎯 建议动作: 研究跟进，评估内部YARA规则共享策略并考虑引入风格混淆或匿名化预处理。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#stylometry

Anonymous YARA Rules Are Not Anonymous