#personal-data 主题 - Cyber Security Daily Radar

👥 作者: Immanuel Kunz, Ching-Yu Kao, Daniel Kowatsch, Jens Hiller, Julian Schütte, Dmitry Prokhorenkov, Konstantin Böttinger

本论文针对软件产品隐私影响评估中的人工依赖性强、耗时且易错的问题，提出了一种基于大型语言模型（LLM）的自动分类方法，用于检测源代码中涉及个人数据处理的部分。作者首先构建了一个带有W3C个人数据分类体系标签的代码片段数据集，然后设计了一个可扩展的框架，采用不同的提示策略（如零样本、少样本）对代码片段进行分类。通过在多个实验中对框架进行评估，结果显示基于LLM的方法在检测个人数据处理的准确率上达到了有效支持人工审核的水平，能够帮助审查人员在规模化代码审核中高效识别隐私相关代码。该研究主要贡献包括：(1) 一个标注了个人数据类别的代码数据集；(2) 一个结合分类体系和多种提示策略的自动化分类框架；(3) 实验验证了方法的可行性及最佳实践。本文适合隐私工程师、源代码审计工具开发者以及合规研究人员阅读。

💡 推荐理由: 提供了一种自动化评估代码隐私影响的LLM方案，可显著降低人工审查成本，有助于规模化合规检查。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#personal-data

Using LLMs to Identify Personal Data Processing in Source Code.