#security-document-classification 主题 - Cyber Security Daily Radar

👥 作者: Ivan Dobrovolskyi

本文解决了组织在扫描文档敏感信息时面临的实际问题：云服务需要将数据发送到外部基础设施，而基于规则的检测工具往往漏掉依赖上下文的威胁。为此，作者提出了TorchSight——一个基于微调本地大语言模型（Qwen 3.5 27B）的开源安全文档分类系统。该系统在78,358个样本上训练，样本来自13个许可开放的源和GPT-4合成数据，覆盖7个安全类别和51个子类别。主要评估在1,000份文档上达到95.0%的类别级准确率（95%置信区间：93.5-96.2），而对比的商业模型在相同提示词协议下仅达到75.4-79.9%。在独立的500份保留样本集上，模型达到93.8%准确率，表明性能可推广。结果表明，微调的本地模型能够在保持文档处理本地控制的同时，支持准确的安全文档分类。

💡 推荐理由: 该研究展示了在本地部署微调LLM进行安全文档分类的可行性，既保护了数据隐私，又达到了优于商业云服务的准确率，对需要处理敏感信息的组织（如法律、金融、政府）具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#security-document-classification

Security Document Classification with a Fine-Tuned Local Large Language Model: Benchmark Data and an Open-Source System