#systematic-review 主题 - Cyber Security Daily Radar

👥 作者: Georg Thamer Francis, Malek Malkawi, Sevim Eyüpoğlu, Reda Alhajj, Selim Akyokuş

本文是一篇系统文献综述，旨在梳理人工智能（AI）在网络心理学（Cyberpsychology, CPSY）领域中的应用研究。网络心理学被定义为利用心理学原理增强网络安全应用。随着2010年代初以来AI技术的快速发展，AI与CPSY的融合日益深入，通过高级数据分析解码受害者、攻击者和防御者的独特人格特质与行为模式。该综述遵循PRISMA方法，从收集的34篇研究中严格筛选并分析了AI在网络心理学（AI-CPSY）领域的研究成果。研究提出了一个全面的分类体系，涵盖网络安全应用、AI方法以及所使用的心理学概念。研究将文献分为四大网络安全应用场景：异常检测（AD）、漏洞风险预测（VRP）、安全意识培训（SAT）和身份认证/身份验证（AIV）。在每个应用领域下，又根据AI方法进一步细分，包括机器学习（ML）、深度学习（DL）、自然语言处理（NLP）和强化学习（RL）。此外，综述还识别了最常使用的心理学概念，量化了该领域所使用的数据集，并介绍了当前的实施和部署状态。最后，文章指出了研究空白，提出了开放挑战，并归纳了AI-CPSY领域中最有效和新兴的趋势与方法。该综述适合网络安全研究人员、从业者以及心理学与AI交叉领域的学者阅读，有助于理解当前AI与心理学在网络安全中的结合现状和未来方向。

💡 推荐理由: 该综述系统梳理了AI与心理学的交叉领域，为安全从业者提供了理解用户行为与攻击心理的新视角，有助于改进防御策略与安全意识培训。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Dimitra Papatsaroucha, Stavroula Psaroudaki, Eleftheria Vassilaki, Konstantina Pityanou, Evangelos K. Markakis

本文是一篇关于网络安全中人类脆弱性评估（HVA）的系统性文献综述（SLR），旨在全面梳理该领域的方法、模型和工具。研究背景指出，传统的脆弱性评估主要关注数字资产和技术基础设施，但网络攻击者越来越多地利用人为因素，因此有必要系统性地评估人类脆弱性。人类脆弱性不仅包括个体对网络威胁的 susceptibility，还涉及心理、认知、行为、社会和环境等多维因素，这些因素可能有意或无意地危及系统安全。然而，现有研究碎片化，多从静态角度出发，缺乏对脆弱性在个体与系统间动态传播的关注。本文遵循PRISMA框架，搜集2017至2025年间相关研究，旨在探索是否存在能够动态覆盖人类脆弱性全谱系的评估方法、模型或工具。综述揭示了当前解决方案的空白与局限，并指出了未来需要进一步研究的方向，特别是实现同时、动态地评估无意与有意两个维度的人类脆弱性。本文适合安全研究人员、安全意识培训设计者及人因安全从业者阅读。

💡 推荐理由: 该综述系统梳理了人类脆弱性评估的现状与缺口，为安全团队设计更全面的人因安全策略提供了理论依据，有助于弥补技术防御中忽视的人为弱点。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Richard J. Young, Gregory D. Moody

本文是一篇系统综述，聚焦于2023年至2025年间公开的13个用于评估大型语言模型（LLM）在恶意代码任务中拒绝能力的提示语料库。这些语料库包括AdvBench、CyberSecEval系列、RMCBench、RedCode、MCGMark、JailbreakBench、CySecBench、MalwareBench、CIRCLE、MOCHA、ASTRA、Scam2Prompt/Innoc2Scam-bench和JAWS-Bench。每个语料库均采用不同协议构建、不同许可条款发布，并依据不同评分者间信度标准进行验证（或未验证）。现有综述通常以代码安全、越狱分类或漏洞检测为核心对象，仅简要提及这些语料库。本文则逆转这一框架，将提示数据集本身作为分析单元。作者遵循PRISMA-style协议，制定搜索策略，筛选编码LLM拒绝评估相关近期文献，对每个符合条件的语料库应用统一提取模板，并从构建方法、提示构建分类法（模态、轮次结构、诱导风格）、可复现性与许可、恶意软件类别覆盖等方面进行综合。综合结果揭示了三个反复出现的方法论缺陷：缺乏人类标注者基线以校准LLM评判标签；缺乏跨语料库可比性，因为拒绝率统计量测量的是不等价的构念；恶意软件类别分类法碎片化，缺少能覆盖全部13个语料库的规范模式。综述最后提出下一代语料库的方法论方向，包括预注册纳入标准、供应商多样化的多评判者验证、以Fleiss' kappa和自助法置信区间作为信度基线，以及一个候选规范分类法。本文适合LLM安全评估、红队测试、以及提示工程领域的研究者阅读。

💡 推荐理由: 本文首次系统梳理了13个恶意代码提示语料库，揭示了评估LLM拒绝能力时的关键方法论缺陷，为构建更可靠、可比较的安全评估基准提供了明确方向。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#systematic-review

AI in Cyberpsychology: A systematic literature review of Cybersecurity enhancement by using AI for analyzing psychology of Victims, Attackers, and Defenders

Human Vulnerability Assessment in Cybersecurity: A Systematic Literature Review of Methods, Models, and Instruments

Refusal Evaluation in Coding LLMs and Code Agents: A Systematic Review of Thirteen Malicious-Code Prompt Corpora (2023-2025)