#security-document-classification

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Ivan Dobrovolskyi

本文解决了组织在扫描文档敏感信息时面临的实际问题:云服务需要将数据发送到外部基础设施,而基于规则的检测工具往往漏掉依赖上下文的威胁。为此,作者提出了TorchSight——一个基于微调本地大语言模型(Qwen 3.5 27B)的开源安全文档分类系统。该系统在78,358个样本上训练,样本来自13个许可开放的源和GPT-4合成数据,覆盖7个安全类别和51个子类别。主要评估在1,000份文档上达到95.0%的类别级准确率(95%置信区间:93.5-96.2),而对比的商业模型在相同提示词协议下仅达到75.4-79.9%。在独立的500份保留样本集上,模型达到93.8%准确率,表明性能可推广。结果表明,微调的本地模型能够在保持文档处理本地控制的同时,支持准确的安全文档分类。

💡 推荐理由: 该研究展示了在本地部署微调LLM进行安全文档分类的可行性,既保护了数据隐私,又达到了优于商业云服务的准确率,对需要处理敏感信息的组织(如法律、金融、政府)具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)