#topological-data-analysis

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Michael Robinson 0001, Cory Anderson, Letitia W. Li, Steve Huntsman

本文提出了一种基于概率模型和加权Dowker复形的统计方法,用于检测文件格式的方言(即同一格式的不同变体)。核心思路是,当文件被一组预定义的解析器处理时,解析器会生成一系列布尔“消息”(例如解析成功/失败、特定结构存在与否等),这些消息共同构成文件的“行为特征”。作者假设在每种方言内部,消息之间是统计独立的,并基于此建立概率模型,通过计算后验概率来判定一个文件属于特定方言。针对两种方言的场景,论文提出了一种阈值分类算法,且该算法可以从主要包含一种方言的训练集中“引导”出来(即通过少量标记数据扩展至未标记数据)。实验验证表明,理论推导的分布和实际经验分布均能达到良好的分类性能,且优于仅统计消息数量的简单方法。此外,当消息独立性假设不成立时,可检测出方言之间的“边界”,帮助格式分析师更高效地制定新的检测标准。本文的主要贡献包括:1)提出了一种可实验验证的概率模型;2)通过阈值算法实现实用的方言分类;3)利用独立性假设的违反来识别方言边界;4)在真实文件数据上验证了方法的有效性。该研究适合文件格式分析、数据清洗、恶意软件检测等领域的从业者阅读。

💡 推荐理由: 文件格式的细微变体常被攻击者用于逃避检测,该方法提供了一种统计框架来自动发现并分类这些变体,有助于提升反病毒引擎和文件分析工具的鲁棒性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)