说明
《Python Polars》 教程正在筹划更新中,敬请期待!Polars 是一个高性能的数据处理库,特别适用于大数据集和需要并行计算的场景。如果你在处理大数据时遇到性能瓶颈,可以考虑尝试 Polars,它的延迟计算和并行化机制可以显著提升处理效率。
Polars是一个库,安装就像调用相应编程语言的包管理器一样简单。在 Python 中安装 Polars 十分简单,以下是详细步骤:
运行以下命令安装 Polars 的核心版本:
pip install polars
如果您的 CPU 不支持 AVX2 指令集,可以安装兼容版本:
pip install polars-lts-cpu
Polars 默认支持的 DataFrame 行数限制为 (2^{32}) 行(~43 亿)。如需处理更大的数据集(最多 (2^{64}) 行,18万亿),可以安装扩展支持:
pip install polars-u64-idx
根据需要添加额外功能支持,例如与 pandas 互操作或支持远程文件系统:
pip install 'polars[numpy,fsspec]'
pip install polars[gpu] --extra-index-url=https://pypi.nvidia.com
Polars 的可选依赖可以启用额外功能,以支持特定场景或扩展 Polars 的能力。以下是各类可选依赖的详细说明:
all
:安装所有可选依赖。gpu
:启用 NVIDIA GPU 加速,用于内存工作负载的最大性能。pip install polars[gpu] --extra-index-url=https://pypi.nvidia.com
pandas
:支持将数据与 pandas DataFrame 或 Series 互相转换。numpy
:支持将数据与 NumPy 数组互相转换。pyarrow
:支持将数据与 PyArrow 表或数组互相转换。pydantic
:将 Pydantic 模型的数据转换为 Polars 数据结构。calamine
:使用 calamine
引擎读取 Excel 文件。openpyxl
:使用 openpyxl
引擎读取 Excel 文件。xlsx2csv
:使用 xlsx2csv
引擎读取 Excel 文件。xlsxwriter
:使用 xlsxwriter
引擎写入 Excel 文件。excel
:安装所有支持的 Excel 引擎。adbc
:通过 Arrow Database Connectivity (ADBC) 引擎读取和写入数据库。connectorx
:通过 ConnectorX 引擎读取数据库。sqlalchemy
:通过 SQLAlchemy 引擎写入数据库。database
:安装所有支持的数据库引擎。fsspec
:支持从远程文件系统读取和写入数据。deltalake
:读取和写入 Delta 表。iceberg
:读取 Apache Iceberg 表。async
:支持异步收集 LazyFrames。cloudpickle
:序列化用户定义的函数。graph
:将 LazyFrames 可视化为图形。plot
:通过 plot
命名空间绘制 DataFrame。style
:通过 style
命名空间设置 DataFrame 样式。timezone
:支持时区功能。通过组合上述依赖,您可以根据特定需求扩展 Polars 的功能。例如,以下命令将安装支持 pandas 和远程文件系统的 Polars:
pip install 'polars[pandas,fsspec]'
更新时间:2024-12-08 10:48:34 标签:polars python 安装