#empirical-study 主题 - Cyber Security Daily Radar

👥 作者: Beomjin Jin, Eunsoo Kim, Hyunwoo Lee 0001, Elisa Bertino, Doowon Kim, Hyoungshick Kim

该论文针对网络安全威胁情报（CTI）共享的实际效果进行了实证研究。虽然CTI共享被认为能够自动化威胁分析并提升安全意识，但缺乏对其类型分布和有效性的系统评估。作者提出了CTI-Lense框架，用于从多个公开CTI源收集和分析结构化威胁信息表达（STIX）数据，重点关注数据量、时效性、覆盖范围和质量。研究从2014年10月31日至2023年4月10日收集了来自十个数据源的约600万个STIX对象。分析发现：STIX数据共享量虽逐年稳步增长，但总体覆盖率仍较低；共享的威胁数据类型有限，恶意软件签名和URL占据90%以上；URL的共享时效性较好（约72%早于或等于VirusTotal），但恶意软件签名的共享明显滞后；此外，19%的威胁行为者数据包含错误信息，仅0.09%的指标数据提供了检测规则。基于这些发现，作者提出了改进STIX数据共享有效性和可扩展性的实践建议。该研究对安全运营团队、CTI平台设计者和政策制定者具有参考价值。

💡 推荐理由: 揭示了当前CTI共享实践中数据类型单一、质量参差不齐等问题，提醒安全团队谨慎依赖共享情报，并为优化情报源选择和评估提供了数据驱动依据。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xihan Xiong, Zelin Li, Wei Wei, Qin Wang, William Knottenbelt, Zhipeng Wang

本研究针对 ERC-8004 协议——首个为 AI 代理经济设计的无许可信任层——进行了首次实证分析。该协议通过链上身份、声誉和验证三个注册表，旨在解决自主 AI 代理跨组织交易时的信任评估问题。尽管协议被快速采用，但其实际有效性和安全性未经检验。作者在以太坊、BNB Smart Chain (BSC) 和 Base 三条区块链上，从协议部署至 2026 年 5 月 13 日期间，全面爬取链上事件、链下 JSON 文件以及 x402 支付交易记录。身份注册方面，发现绝大多数注册仅是占位符，仅有少量代理（以太坊 3%、BSC 4%、Base 15%）具备有效注册文件且至少包含一个实时服务端点。声誉注册方面，当前部署的注册表无法提供可信的信任信号：声誉值不可通约（例如正负反馈直接加和），反馈记录极少基于可验证的链上交互，且声誉可通过低成本操纵（如自评或刷分）任意篡改。与这些设计缺陷一致，大量评审者表现出协作性 Sybil 行为（以太坊 73.6%、BSC 59.2%、Base 90.6%）。在移除标记为 Sybil 的反馈后，各链上分别有 15.5%、72.3% 和 89.4% 的已评级代理不再拥有任何有效反馈。基于这些发现，作者提出了对 ERC-8004 未来版本的具体改进建议，包括引入可验证交互凭证、声誉评分标准化以及抵抗 Sybil 攻击的机制。本研究为 AI 代理市场的信任协议设计提供了实证基础和方向性指导。

💡 推荐理由: 该研究首次以实证方式揭示 ERC-8004 信任层的严重缺陷——绝大多数代理名不副实、声誉系统完全可被 Sybil 攻击操纵，直接威胁依赖该协议的 AI 代理经济的安全性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Andrew Stoltman, Johnathan Tang, Haipeng Cai

本论文针对大语言模型（LLM）用于自动化漏洞检测时，程序结构与语义信息的表示方式这一关键问题进行了实证研究。作者指出，当前的提示工程方法通常直接提供原始源代码，但这一做法缺乏理论支撑，且可能引入冗余信息导致推理效果下降。为此，论文构建了RepBench基准测试集，基于Joern工具从真实C/C++漏洞测试用例中提取多种程序表示：原始源码、抽象语法树（AST）、控制流图（CFG）、程序依赖图（PDG）及其组合，并特别增加了增强型PDG（ePDG）变体。实验采用来自PrimeVul的107个测试用例（覆盖5个CWE类别），在固定思维链（Chain-of-Thought）和结构化输出协议下评测了10种表示变体，外加19个额外ePDG用例。结果表明，表示选择显著影响LLM的漏洞推理能力。最佳组合AST+PDG达到83.2%的准确率，而原始源码仅53.5%。图结构提示（仅含图）在家族层面优于纯源码提示或源码+图提示，且所需提示长度更短。研究揭示了“上下文稀释效应”：向紧凑的结构化证据中添加原始源码，反而会降低关键漏洞信息的显著性，损害推理能力。总体而言，精心选择的结构化表示能够提供比简单增加原始输入更好的准确率-开销权衡，表明静态分析可作为安全聚焦型LLM推理的有效提示构造层。该工作对于理解如何优化LLM在代码安全任务中的输入表示具有重要指导意义。

💡 推荐理由: 本研究表明，直接给LLM喂原始源码并非最优做法，合理选择结构表示（如图或AST）能显著提升漏洞检测准确率。安全团队在构建AI辅助漏洞检测系统时，应优先考虑基于静态分析的结构化提示，而非盲目堆叠上下文。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Stefan Beyer

该论文对2022年1月1日至2026年3月27日期间（四年零三个月）的Web3安全态势进行了实证分析。研究数据集包含来自22家独立安全公司的23,818份公开审计结果，以及rekt.news记录的218起真实世界漏洞利用事件，总损失约77.6亿美元。研究有三个核心发现：第一，审计结果的分布（按严重性、类别和技术栈）在整个观察窗口内基本稳定，严重和高级别漏洞占比每年保持在15%-17%的区间内。第二，实际漏洞利用损失的类别分布与审计结果的类别分布不一致：私钥泄露、钓鱼和社会工程攻击向量占累计损失的约49.6%，但在公开审计结果中占比极小。第三，实际损失呈现极端集中性：最大的8起事件占累计美元损失的50.6%，最大的20起事件占71.4%，这种分布形状不符合高斯假设。论文采用的分析惯例是审计输出和漏洞利用输出描述的是不同群体，因此将两个数据集并行展示，而非直接比较。该研究揭示了当前区块链安全审计实践与真实攻击损失之间的鸿沟，强调现有审计可能忽略了关键攻击向量（如私钥泄露、社会工程），为安全团队和审计机构提供了改进方向。

💡 推荐理由: 该研究揭示了公开审计结果与实际损失之间的系统性偏差，指出私钥泄露、钓鱼和社工等非技术漏洞在审计中被严重低估，但实际破坏巨大，对安全团队优化审计范围和防御策略有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pinran Gao, Lingxiang Wang, Ying Zhang, Fan Yang

该论文首次对iOS应用中大语言模型（LLM）API密钥泄露进行了系统的实证研究。随着LLM快速集成到移动应用，API密钥泄露成为新的安全风险——攻击者可利用泄露的凭证非法访问LLM推理服务，给开发者造成经济损失。此前研究主要聚焦Android应用，iOS领域尚属空白。作者构建了一个包含444个iOS应用的高质量数据集（从1092个候选应用中经过标准化流程筛选），并开发了动态分析框架LLMKeyLens，通过流量拦截、提供商特定密钥提取和主动有效性验证来检测LLM API密钥泄露，无需源代码或二进制解密。实验结果令人震惊：282个应用（63.5%）在网络流量中暴露了可被利用的LLM API凭证，涉及至少10个提供商。论文识别出三种泄露模式：基于JWT的令牌泄露（48%）、未认证的后端代理访问（33%）以及明文API密钥传输（19%）。在负责任披露三个月后，作者重新分析了同样的282个漏洞应用，仅28%修复了问题，72%仍可被利用，持续性漏洞主要源于未认证后端和有缺陷的JWT实现。研究表明，LLM API密钥泄露在iOS生态中既普遍又持久，暴露出开发者实践与安全集成原则之间的系统性差距，并提出安全的LLM集成不仅需要开发者意识，还需要提供商明确的安全指南和平台级强制执行。

💡 推荐理由: 揭示了iOS应用中LLM API密钥泄露普遍且修复缓慢的严重问题，直接影响使用LLM服务的移动应用开发者的财务安全与业务连续性，为蓝队提供新的攻击面洞察。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jukka Ruohonen, Krzysztof Sierszecki

本文通过实证实验评估了C和C++程序中未定义行为（UB）在典型Linux桌面使用中的实际发生情况。未定义行为是C/C++语言中特有的概念，指程序使用了语言标准未作任何要求的错误构造（如整数溢出）。研究者利用编译器内置的未定义行为消毒剂（UBSan）在运行Debian Linux的桌面环境中进行了系统实验。实验包含59个简单的桌面使用任务（如登录、打开文件、浏览网页等），覆盖了32个用C/C++编写的程序和库。结果共生成近11,000个独特的未定义行为警告，其中绝大部分与Mesa图形库相关，并通过图形用户界面交互触发。仅仅登录GNOME桌面环境就产生了超过500个独特警告。在所有警告中，虚表指针相关的未定义行为占绝大多数，且关联的堆栈跟踪通常较长。此外，实验还观察到不同程序和库之间的UB分布差异，以及某些UB类型（如浮点运算、空指针解引用）的相对频率。本文的贡献在于为C/C++未定义行为的实证文献提供了真实世界桌面使用场景下的量化数据，突显了UB在实际软件中普遍存在的现象，对编译器设计、程序分析和安全加固具有参考价值。

💡 推荐理由: 本文通过真实桌面使用实验揭示了C/C++未定义行为在常用软件中普遍存在，提醒开发者忽视UB可能导致不可预测的安全漏洞，并推动社区重视静态/动态分析工具的应用。

🎯 建议动作: 建议编译器和安全团队关注UB检测工具（如UBSan）的集成，并在CI流程中启用以尽早发现潜在问题。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: David A. Basin, Juan Guarnizo, Srdan Krstic, Hoang Nguyen Phuoc Bao, Martín Ochoa

该论文研究模型驱动的访问控制实现方法与传统的代码中心方法之间的效率与正确性差异。在软件开发中，手动实现访问控制策略容易出错，可能导致严重的安全漏洞。已有文献提出了模型驱动的方法和相关工具，旨在降低复杂度并帮助开发者高效构建安全软件。然而，目前缺乏支持模型驱动安全方法优越性的实证数据。因此，论文旨在通过系统性实验比较两种方法在开发者生产力、代码正确性及安全缺陷数量等方面的表现。作者设计并实施了一项受控实验，让参与者分别使用模型驱动（如基于SecureUML的代码生成）和代码中心（手动编写Spring Security等框架代码）完成相同访问控制功能的实现，并测量完成时间、错误数量与代码理解难度。初步结果表明，模型驱动方法能显著减少实现错误，但可能增加初始学习成本。该研究为安全工程的实践选择提供了经验证据，适合安全工程师、软件架构师及研究人员阅读。

💡 推荐理由: 该研究提供了首个实证对比模型驱动与代码中心访问控制实现的数据，有助于安全团队决定是否采用更自动化的安全开发方法，从而降低策略误配置风险。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Stefan Rass, Martin Pinzger, Rainer W. Alexandrowicz, Georg Sengstbratl, Johann Glock, Alexander Lercher, Fabian Oraze, Christoph Wedenig

本论文针对软件开发中安全投入不足的问题，提出并评估了一种基于团队层面的微支付激励机制，旨在通过可量化的安全指标改善代码安全。研究设计了半自动化的度量流水线，集成 Bearer、Detekt 和 mobsfscan 等静态分析工具，聚合安全发现并计算安全漏洞密度（security issue density），然后根据团队在多个冲刺周期内的相对改进比率给予奖励，从而实现可重复的脚本化报告。实验在课程环境中进行，84 名学生组成 14 个团队，分为实验组（安全激励组，奖励与扫描结果挂钩）和对照组（相同评分但不激励安全）。使用 beta 回归分析，实验组的安全漏洞密度显著低于对照组（β= -0.396, p=0.0342），表明激励措施提高了可测量的安全性。此外，研究发现前后端存在明显差异：后端在激励下漏洞更少、改进比率更高，表明不同技术栈层对激励的反应不同。同时，实验组代码行数的增长与对照组相似，说明安全性提升并非源于代码膨胀。该度量工具链被证明可脚本化、可自动化，适合规模化采用。结果提示将奖励与自动安全指标对齐能切实改善代码安全，值得在专业环境和更长开发周期中进一步验证。

💡 推荐理由: 为安全团队提供了一种低成本、可量化的激励方案，将安全改进直接与开发团队绩效挂钩，有望缓解安全投入不足的行业痛点。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Amirhossein Khanlari, Amir Rahmati

这篇论文首次对伊朗第三方 iOS 应用商店生态系统进行了全面的实证研究。由于美国制裁和严格的互联网审查，伊朗 iOS 用户无法访问官方的 Apple App Store 和开发者服务，从而催生了一个违反苹果开发者协议的灰色市场。研究者从三个主要的伊朗第三方应用商店收集了超过 1700 个 iOS 应用包及其元数据，通过静态分析和元数据挖掘，系统性地描述了这些商店的运营模式，包括分发机制、用户认证流程和规避检测的技术。分析显示，这些商店中充斥着大量伊朗专属应用、破解应用、未经授权的付费内容货币化行为，以及嵌入的第三方跟踪和盗版库。此外，研究者发现金融、导航和社交类应用在这些商店中占比突出，反映了伊朗用户独特的数字限制。论文还量化了开发者因盗版造成的收入损失，并记录了篡改二进制文件带来的安全与隐私风险。最终，研究揭示了制裁、审查和执行漏洞如何催生了一个具有复杂社会技术影响的平行应用分发生态系统。

💡 推荐理由: 该研究揭示了第三方应用商店中普遍存在的盗版、恶意跟踪和隐私风险，提醒安全从业者关注非官方渠道应用带来的威胁，尤其是在受制裁地区。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#empirical-study

Sharing cyber threat intelligence: Does it really help?

Can Trustless Agents Be Trusted? An Empirical Study of the ERC-8004 Decentralized AI Agent Ecosystem

Representation Matters: An Empirical Study of Program Representations for LLM Vulnerability Reasoning

The Audit Gap in Blockchain Security: A Four-Year Empirical Study of Public Audit Findings and Real-World Exploit Incidents

Mind your key: An Empirical Study of LLM API Credential Leakage in iOS Apps

Undefined Behavior in C and C++: An Experiment With Desktop Use Cases

Is Modeling Access Control Worth It?

Security Incentivization: An Empirical Study of how Micropayments Impact Code Security

Taking a Bite Out of the Forbidden Fruit: Characterizing Third-Party Iranian iOS App Stores