推荐 5.6
Conf: 50%
该论文提出了 Honeyval,一个针对基于大型语言模型(LLM)的 HTTP 蜜罐的全面评估框架。蜜罐是一种模拟真实系统组件的诱饵,用于防御网络攻击。近年来,LLM 越来越多地被用作蜜罐的模拟后端,使防御者能够构建高交互蜜罐,同时降低系统安全风险。然而,LLM 驱动的蜜罐开发缺乏统一的评估框架。现有评估方法通常包括在固定命令上测量响应相似性、手动测试或实际部署,但这些方法难以扩展、不可重复、无法代表实际攻击,也无法适应不同的攻击者和蜜罐配置。Honeyval 通过以下方式克服了这些局限性:将蜜罐基于 16 个后端应用程序,使用 AI 黑客代理作为攻击者,采用两个控制任务来监控代理和蜜罐在不同定制下的能力,并为攻击者定义清晰可验证的利用目标。利用 Honeyval,作者对近期成本高效的 LLM 作为 HTTP 蜜罐进行了广泛评估。实验显示,LLM 驱动的蜜罐能够显著延长与攻击者的交互时间,远远超过基于规则的基线蜜罐,并且即使使用前沿模型也很难被检测到,同时平均保持了对抗主动攻击者的成本优势。此外,作者还实验了不同的反制蜜罐配置,观察到了独特的权衡,例如更长的交互时间以增加被检测的风险。该工作为 LLM 蜜罐的开发和标准化评估提供了重要基础。
💡 推荐理由: 该研究为LLM驱动蜜罐的开发和评估提供了首个统一框架,解决了现有评测不可重复、不具代表性的痛点。安全从业者可借助Honeyval客观比较不同蜜罐配置,优化部署策略。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)