#polars

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Wei Wang, Burns Smith, Kenny Leftin

本文实证研究了在Intel SGX2安全区内运行Arrow-native DataFrame引擎Polars的性能特性。作者使用Gramine作为LibOS,在TPC-H SF30基准测试集(约22-73 GB)和Azure Blob Storage环境下,测量了端到端、仅查询和表加载三种性能开销。实验发现,端到端开销相对稳定在1.49-1.56倍,但分解后显示:仅查询开销从1.51-1.52倍下降至1.43-1.44倍,而表加载开销则从2.27倍上升至4.07倍,说明数据摄入是主要瓶颈。查询级分析显示,中位数SGX减速为1.45倍,最大2.57倍,部分查询因状态性EPC压力出现运行时间剧烈波动。此外,比较了Polars的惰性(lazy)与急切(eager)两种API,惰性执行整体快2.25-2.27倍,而急切执行在41 GB及以上时因内存不足失败。与近期DuckDB-SGX2研究对比,结果表明SGX2支持Arrow-native分析处理的额外开销与SQL引擎相当,但加载路径放大和API级优化是影响端到端性能的主要因素。该研究为机密分析工作负载在TEE中的部署提供了定量参考。

💡 推荐理由: 该研究首次量化了现代Arrow-native数据框架Polars在Intel SGX2中的性能开销,揭示了表加载和API选择的关键影响,为机密数据分析场景的工程优化提供实证依据。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)