#sandbox 主题 - Cyber Security Daily Radar

👥 作者: Alexander Küchler, Alessandro Mantovani, Yufei Han 0001, Leyla Bilge, Davide Balzarotti

本文针对恶意软件分析沙箱中执行时间参数的选择问题展开研究。沙箱执行时间过长会降低可扩展性，过短则可能导致恶意行为未被完全触发，影响数据收集的质量。然而，目前缺乏关于如何选择最优执行时间的明确指南。为了填补这一空白，作者首次开展了大规模研究，系统评估执行时间对收集事件数量和质量的影响。通过测量系统调用和代码覆盖率随时间的变化，刻画了在沙箱中可观察到的运行时行为比例。最后，基于不同时间窗口收集的数据，实现了机器学习驱动的恶意软件检测方法，并报告了不同时间点观察到的事件的重要性。该研究有助于安全分析师在资源效率和检测有效性之间找到平衡点。

💡 推荐理由: 沙箱执行时间是恶意软件分析的关键参数，本文首次提供大规模实证数据，帮助安全团队科学设置执行时长，避免资源浪费或分析不充分。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mohammadreza Rashidi

该论文系统化整理了2023-2026年间关于AI编码代理执行安全性的39篇论文，将其分为17个类别，并直接验证了每个类别与原始来源的一致性。研究背景是AI编码代理可以读取仓库、调用工具和执行shell命令，但缺乏足够的人类监督，因此其执行层的安全性成为关键问题。现有文献分散在不同子领域（如沙箱隔离、能力与访问控制、策略执行、TOCTOU竞争、MCP威胁、身份委托、执行溯源、网络出口控制和代理生成代码的静态分析），彼此很少互相引用。论文通过系统化梳理，发现了五个跨领域的缺口：（1）隔离架构和能力模型几乎从未在共享基准上相互评估；（2）策略执行研究报告的真实拒绝列表失败率高达69%-98%，但没有隔离论文在该对抗设置下重新评估自身的防御；（3）TOCTOU和MCP威胁被视为独立的文献，尽管它们都是同一个状态验证问题的实例；（4）所有执行机制假设策略作者诚实，未解决策略编写错误本身；（5）在真实提示下，良性但超出范围的代理动作发生率高达17.1%，但没有任何访问控制或能力论文处理此问题。此外，论文还确认了四个直接影响生产代理框架的已披露并修补的CVE。最后，论文针对这五个缺口提出了未来的研究议程。该论文适合AI安全研究人员、系统安全工程师以及开发AI编码代理平台的团队阅读。

💡 推荐理由: 首次系统化梳理AI编码代理执行安全领域，清晰指出现有研究的碎片化问题和关键缺口，为后续研究和实践提供了明确方向。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jukka Ruohonen, Krzysztof Sierszecki, Abhishek Tiwari

该论文对OpenBSD操作系统中pledge和unveil系统调用的采用情况进行了纵向测量研究。pledge和unveil是OpenBSD提供的沙箱机制，用于限制程序对系统资源的访问，从而增强安全性。研究基于覆盖19个OpenBSD版本的完整数据集，分析了大量程序和库如何逐步采用这些系统调用。主要发现包括：许多程序和库在官方版本发布之前就已开始修改以支持pledge和unveil；采用率稳步增长，线性趋势提供了粗略但合理的启发；尽管/usr/bin和/usr/sbin中的程序修改较为普遍，但程序和库的大小与调用的pledge和unveil数量之间没有强相关性；在pledge权限声明中，标准输入输出操作被频繁请求，但pledge提供的细粒度权限集在OpenBSD中得到了较全面的利用；同样，对特定路径的读操作在unveil中频繁被暴露。总体而言，测量结果表明，系统调用最小化和沙箱技术的采用并不像文献中经常讨论的那样困难。该研究为操作系统安全机制的实际部署提供了实证数据，对理解OpenBSD安全生态的演进有重要参考价值。

💡 推荐理由: 该研究首次系统测量了OpenBSD中pledge/unveil系统调用的实际采用情况，为安全从业者提供了沙箱技术落地难易度的实证数据，有助于评估特权分离机制在真实操作系统中的推广效果。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Niranjan Kumar Sharma, S Muralidhar, Samy Boshra-Riad, Mike Halcrow, Yuxiong He, Nitya Kumar Sharma, Shawn Xia, Haowei Yu, Elliott Brossard, Derek Denny-Brown, Choden Konigsmark, Bhanu Prakash, Brandon Baker, Andong Zhan

本文提出并描述了 SNAS (Secure Network Access in Snowpark) 架构，该架构是 Snowflake 面向 Snowpark 沙箱化工作负载的安全出口解决方案。Snowpark 允许用户在安全沙箱中执行用户自定义函数，用于数据工程和 AI/ML 工作负载。这些工作负载通常需要外部网络连接（如访问云 API、外部数据库或特征存储），从而带来了挑战：如何在保持严格多租户隔离和资源公平性的同时提供透明的网络访问。SNAS 结合了三种核心技术：1) 基于 eBPF 的包过滤和带宽限制器（使用最早出发时间 EDT 算法）；2) GENEVE 覆盖网络用于封装和隔离；3) 分布式出口代理用于策略驱动的出口控制。架构还包括双层策略执行、连接限制和端口耗尽防护机制。SNAS 已部署在所有 Snowflake 区域，支持大规模生产工作负载，包括 PB 级数据传输和延迟敏感的外部集成。实验数据表明其性能开销低，能有效实现安全出口访问。本文贡献在于提供了一个可投入生产的、多层纵深防御的沙箱出口安全架构设计方案和实际部署经验。

💡 推荐理由: 该工作展示了如何在公有云多租户环境中, 为沙箱化数据工作负载提供安全、高性能的外部网络访问, 对同类云数据平台有直接借鉴意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: George Andronchik, Pavel Lokhmakov

本文系统性地从六个引擎级安全属性评估了五种AI代码沙箱产品隔离访客代码与宿主内核的能力。六个维度包括：1.1 宿主攻击面、1.2 信息泄露、1.3 纵深防御可堆叠性、1.4 公开CVE历史、1.5 补丁节奏、1.6 上游模糊测试状态。研究强调单一维度不足以支撑比较判断，交叉分析才是关键。主要发现有三点：(1) 引擎类别（微VM、用户态内核、OCI容器）在每个架构维度上均明显区分，但同类产品间差异不大；(2) 产品引脚策略是主导操作者变量——引擎侧补丁延迟在协同披露下平均约0天，而下游滞后从0天到471天以上，甚至“不透明”或无限；(3) 模糊测试投入分为三个层次，而“微VM × 持续公开模糊测试”的最强组合在本研究集中空缺，导致“0个已发布CVE × 无上游模糊测试 × 无学术研究”的交集在结构上未被测量。报告给出了各维度的排序、各产品的画像以及威胁模型限定矩阵，未提出总体排名。配套代码仓库开源（Apache-2.0）。适合安全架构师、沙箱开发者及AI平台安全评估人员阅读。

💡 推荐理由: 首次从多引擎维度交叉分析AI代码沙箱安全，弥补了单一指标比较的不足，为蓝队选择或评估沙箱产品提供了系统方法论与实证数据。

🎯 建议动作: 研究跟进：深入阅读原文并与内部沙箱产品对比评估；关注配套代码库更新。

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Luis E. Salazar, Sebastián R. Castro, Juan Lozano, Keerthi Koneru, Emmanuele Zambon, Bing Huang, Ross Baldick, Marina Krotofil, Alonso Rojas, Alvaro A. Cárdenas

本论文对两种旨在对乌克兰电网实施停电的恶意软件进行了深入分析。研究者设计并实现了一种新型沙箱环境，该沙箱能够模拟变电站中的各类网络拓扑、设备特性和通信协议，从而安全地执行专门针对变电站设备的恶意代码，并详细记录攻击者在变电站设备上可能执行的精确操作序列。通过对恶意软件的动态分析，论文揭示了此前未被记录的恶意行为，例如对MMS（制造报文规范）协议载荷的详细算法还原。此外，论文还探讨了未来类似恶意软件可能造成的不同影响，通过比较攻击不同目标（如断路器、保护继电器等）所产生的物理后果，说明攻击目标的差异会直接导致不同程度的电网扰动或停电范围。该研究的主要贡献包括：首次公开了Industroyer类恶意软件在IEC 61850环境下的具体协议交互细节；提供了一套可复用的沙箱仿真框架用于工控恶意软件分析；以及从攻击者视角系统化阐述了工控系统攻击的潜在影响路径。适合工控安全研究员、电力系统防御工程师及威胁情报分析师阅读。

💡 推荐理由: 揭示了针对电力系统的恶意软件尚未被公开的技术细节，帮助蓝队理解攻击者对变电站设备的操作手法，从而提升对工控环境中新型攻击的检测与防护能力。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#sandbox

Does Every Second Count? Time-based Evolution of Malware Behavior in Sandboxes.

The Balkanization of Execution-Security Research for AI Coding Agents: Isolation, Access Control, and Time-of-Check-to-Time-of-Use Vulnerabilities

A Measurement Study on the Adoption of Pledges and Unveils in the OpenBSD Operating System

SNAS: A Multi-Layer Defense-in-Depth Architecture for Secure Egress in Sandboxed Workloads

AI Code Sandboxes: A Comparative Security Study. Part 1 of 2 -- Engine-Level Properties (Attack Surface, Leakage, Stackability, CVE History, Patch Cadence, Fuzzing)

A Tale of Two Industroyers: It was the Season of Darkness.