看过来
《pandas 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gairuo123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
pandas 的诞生背景并不是在大数据使用场景下。pandas 作者 Wes Mckinney 于 2008 年开始构建,基于 Numpy 的基础数据类型和机制。
pandas 如此优雅便利用数据处理接口,不能处理超大数据让人遗憾。本文将介绍在利用 pandas 类似的数据模型和接口情况下,如何处理分析超大数据。
在大数据场景下,pandas 遇到的问题主要原因是 pandas 是基于内存的计算,加载数据时会读取到内存,包括计算时数据也在内存,但对于超出内存容量的数据就无能为力了。
pandas 的主要问题有:
近些年来,出现了一系统用于处理大数据的 Python 三方库,如 Dask、Ray、Modin、Vaex、Polars 以及 Apache Arrow 等。常用的 dask 和 ray 是并行多任务库,modin 是计算资源调度库。
更新时间:2024-08-12 11:03:33 标签:pandas python 大数据