#os-layer 主题 - Cyber Security Daily Radar

👥 作者: Zhuoping Yang, Yiyu Shi, Alex Jones, Peipei Zhou

本文提出 AgileOS，一个旨在为 GPU 服务提供操作系统级保护层的系统。现代 GPU 应用越来越多地与存储系统、网络设备、供应商库和 GPU 驻留服务交互，而不仅仅是执行隔离的计算内核。这种转变要求对 GPU 服务提供类似操作系统的保护，即服务元数据、设备队列、内存映射 I/O 区域和库内部状态不应直接暴露给不可信的应用内核。然而，当前的 CUDA 编程模型默认赋予应用对其 CUDA 上下文、设备指针、运行时句柄、模块加载路径和内核启动的直接所有权，迫使受保护的 GPU 服务构建自己的临时接口和隔离机制。AgileOS 在库边界对 CUDA 进行虚拟化：应用程序链接客户端 CUDA 运行时、驱动和选定的库垫片，而受信任的运行时工作线程拥有真实的 CUDA 上下文并中介所有支持的操作。为了保护服务状态和模块接口，AgileOS 定义了一种 GPU 内存管理模型，将用户分配与受保护的模块/MMIO 范围分离，通过 PTX 注入实现指针验证和内存访问保护。AgileOS 模块化且灵活，支持多种受保护服务和现有库如 cuFFT 和 PyTorch。原型包括客户端拦截器、工作线程 CUDA 处理器、虚拟化 CUDA 对象表、受保护的 AgileOS 模块、分离用户分配与保护区域的 GPU 内存管理器、选定的可信库适配器以及 PTX 级内核内存保护。本文适合 GPU 安全研究人员、系统架构师和云服务提供商阅读。

💡 推荐理由: AgileOS 填补了 GPU 环境下缺乏操作系统级隔离的空白，为构建安全的 GPU 服务提供了系统化的方法，对云 GPU 和共享 GPU 环境的安全防护具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#os-layer

AgileOS: A GPU Operating System Layer for Protected CUDA Services