#processing-in-memory 主题 - Cyber Security Daily Radar

👥 作者: Nicola Barcarolo, Brahmaiah Gandham, Mohammad Sadrosadati, Roberto Passerone, Onur Mutlu, Flavio Vella

本文研究了如何利用近内存处理（Near-Memory Processing, PIM）技术来加速密码学算法（如AES-128和SHA-256），从而减轻传统冯·诺依曼架构中数据移动带来的性能瓶颈。作者指出，尽管这些算法在计算上相对高效，但传统处理器（CPU/GPU）由于内存墙限制，处理大量数据时延迟高、能耗大。PIM通过在内存单元内部或附近执行计算，大幅减少处理器与内存间的数据移动，有望提升加解密性能和能效。现有工作虽已证明PIM在加速密码算法方面的潜力，但缺乏对真实商用PIM系统的全面评估。本文使用UPMEM PIM架构作为实验平台，评估了密码算法在单rank和多rank下的性能。结果表明，在单rank配置下，PIM性能仍低于现代CPU；但当利用所有可用rank进行分布式计算时，PIM能够更有效地加速密码算法，展现出良好的可扩展性。该工作为在真实PIM系统上部署和优化密码学加速提供了重要参考，适合对内存计算、数据安全加速感兴趣的研究者和工程师阅读。

💡 推荐理由: 该研究揭示了将密码学算法卸到内存附近处理的可行性与性能权衡，对构建高吞吐、低延迟的数据安全基础设施具有启发意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Harshita Gupta, Mayank Kabra, Jaewoo Park, Priyam Mehta, Phillip Widdowson, Tathagata Barik, Nisa Bostancı, Konstantinos Kanellopoulos, Juan Gómez-Luna, Antonio J. Peña, Mohammad Sadrosadati, Onur Mutlu

本文针对同态加密（HE）在实际处理-内存（PIM）系统上的运行特性进行了全面分析。同态加密允许对密文直接计算，为不可信计算环境提供强隐私保障，但其高计算复杂度、大密文尺寸和大量数据移动限制了实际部署。传统的处理器中心架构（CPU、GPU、ASIC）在处理HE工作负载时面临根本性瓶颈，因为密文大、数据局部性低，且重线性化和自举等操作频繁访问大型辅助元数据。处理-内存（PIM）技术通过在内存附近或内部进行计算，有望缓解这些瓶颈。然而，先前针对HE的PIM方案要么未针对真实PIM系统，要么只覆盖狭窄操作集。本文在真实的通用PIM系统UPMEM上实现了新兴应用（数据库、机器学习）所需的完整HE内核集，评估了性能和可扩展性，并与CPU和GPU基线进行了对比，讨论了对未来PIM硬件的影响。研究发现了四个主要结论：（1）基于HE的应用在不同执行阶段表现出不同瓶颈：某些内核因模运算成为计算密集型，另一些因大密文和中间数据成为内存密集型。这些瓶颈因有限的核心计算能力和存储体容量而加剧，导致频繁的数据移动。（2）主要的计算瓶颈是缺乏原生的64位模整数乘法，这是HE的关键原语。（3）有限的存储体内存容量是第二大瓶颈，因为HE密文和辅助元数据无法容纳，需要跨存储体移动。（4）尽管存在这些限制，当配备原生模乘和高效的PIM间数据移动时，PIM可以成为最先进CPU和GPU系统的可行替代方案。本文通过真实系统测量揭示了HE在PIM上的性能特征，为未来PIM硬件设计提供了重要指导。

💡 推荐理由: 同态加密是保护数据隐私的关键技术，但其性能瓶颈阻碍了实际应用。本文首次在真实PIM系统上全面评估HE操作，揭示了计算和内存瓶颈的具体来源，为安全从业者评估隐私计算硬件加速方案提供了量化依据。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#processing-in-memory

Taking Cryptography Out of the Data Path via Near-Memory Processing in DRAM

HE-PIM: Demystifying Homomorphic Operations on a Real-world Processing-in-Memory System