pandas pd.read_parquet() 读取 Parquet 文件

看过来

《pandas 教程》持续更新中，提供建议、纠错、催更等加作者微信: gr99123（备注：pandas教程）和关注公众号「盖若」ID: gairuo。跟作者学习，请进入 Python学习课程。欢迎关注作者出版的书籍：《深入浅出Pandas》和《Python之光》。

pandas.read_parquet() 是 pandas 库中用于读取 Parquet 文件并将其转换为 DataFrame 对象的方法。Parquet 是一种列式存储的文件格式，广泛应用于大数据处理和分析中，具有高效的压缩和编码能力。通过 read_parquet() 方法，用户可以方便地从本地文件系统或远程存储中加载 Parquet 格式的数据，便于后续的数据分析与处理。

语法

函数签名

pandas.read_parquet(
    path, 
    engine='auto', 
    columns=None, 
    storage_options=None, 
    use_nullable_dtypes=<no_default>, 
    dtype_backend=<no_default>, 
    filesystem=None, 
    filters=None, 
    **kwargs
)

参数详解

path
- 类型: str、pathlib.Path、pyarrow.fs.FileSystem 对象等
- 默认值: 无
- 意义: 指定要读取的 Parquet 文件的路径、URL 或文件系统对象。例如，可以是本地文件路径、S3 存储路径或其他支持的文件系统路径。
engine
- 类型: {'auto', 'pyarrow', 'fastparquet'}
- 默认值: 'auto'
- 意义: 指定用于读取 Parquet 文件的引擎。可选值包括：
  - 'auto': 自动选择可用的引擎（优先选择 pyarrow，如果不可用则选择 fastparquet）。
  - 'pyarrow': 使用 pyarrow 引擎读取。
  - 'fastparquet': 使用 fastparquet 引擎读取。
columns
- 类型: list-like 或 None
- 默认值: None
- 意义: 指定要读取的列。如果为 None，则读取所有列。通过设置此参数，可以仅加载感兴趣的列，减少内存使用和提高读取速度。
storage_options
- 类型: dict 或 None
- 默认值: None
- 意义: 指定与存储后端连接的额外选项，如认证信息、访问权限等。适用于读取远程存储（如 S3、GCS）中的 Parquet 文件。
use_nullable_dtypes
- 类型: bool 或 None
- 默认值: <no_default>
- 意义: 如果设置为 True，则使用 Pandas 的可空数据类型（如 Int64、string 等）来读取数据。此参数在处理缺失值时尤为有用。
dtype_backend
- 类型: {'numpy_nullable', 'pyarrow', None}
- 默认值: <no_default>
- 意义: 指定数据类型的后端选项。可选值包括：
  - 'numpy_nullable': 使用 NumPy 的可空数据类型。
  - 'pyarrow': 使用 pyarrow 的数据类型。
  - None: 使用默认的数据类型后端。
filesystem
- 类型: pyarrow.fs.FileSystem 对象或 fsspec 文件系统对象
- 默认值: None
- 意义: 指定用于访问 Parquet 文件的文件系统对象。适用于自定义文件系统或远程存储。
filters
- 类型: list 或 None
- 默认值: None
- 意义: 指定用于过滤行组的条件。通过设置此参数，可以仅读取满足特定条件的数据，提高读取效率。例如，可以设置为 [['column_name', '==', value]] 以仅加载特定值的行。
**kwargs
- 类型: 其他关键字参数
- 默认值: None
- 意义: 传递给底层引擎（如 pyarrow 或 fastparquet）的其他参数，用于进一步控制数据的读取方式。

返回值

类型: pandas.DataFrame
意义: 返回一个包含从 Parquet 文件中读取的数据的 DataFrame 对象，便于后续的数据分析和处理。

使用场景

pandas.read_parquet() 主要用于以下场景：

大数据处理: Parquet 的列式存储和高效压缩适合处理大规模数据集。
数据仓库集成: 将分析数据从数据仓库中加载到 Pandas 中进行进一步分析。
分布式存储读取: 从分布式存储系统（如 S3、HDFS）中读取 Parquet 文件，适用于云计算和大数据环境。
高效数据交换: 在不同数据处理工具之间高效传输数据。

示例

示例 1：从本地读取 Parquet 文件

假设有一个名为 data.parquet 的本地 Parquet 文件，内容如下：

姓名    年龄    城市
艾丽丝  30    纽约
鲍勃    25    洛杉矶
查理    35    芝加哥

读取该 Parquet 文件并打印 DataFrame：

import pandas as pd

# 读取本地 Parquet 文件
df = pd.read_parquet('data.parquet')

print(df)

输出

姓名  年龄      城市
0  艾丽丝   30     纽约
1    鲍勃   25  洛杉矶
2  查理   35   芝加哥

示例 2：从 S3 读取 Parquet 文件

假设 Parquet 文件存储在 Amazon S3 上，路径为 s3://my-bucket/data.parquet。

import pandas as pd
import s3fs

# 创建 S3 文件系统对象
s3 = s3fs.S3FileSystem(anon=False)

# 读取 S3 上的 Parquet 文件
df = pd.read_parquet('s3://my-bucket/data.parquet', storage_options={'client_kwargs': {'endpoint_url': 'https://s3.amazonaws.com'}})

print(df)

输出

姓名  年龄      城市
0  艾丽丝   30     纽约
1    鲍勃   25  洛杉矶
2  查理   35   芝加哥

示例 3：只读取特定列

假设 Parquet 文件中包含更多列，但我们只关心 姓名 和 城市 列。

import pandas as pd

# 读取 Parquet 文件，指定只加载 '姓名' 和 '城市' 列
df = pd.read_parquet('data.parquet', columns=['姓名', '城市'])

print(df)

输出

姓名      城市
0  艾丽丝     纽约
1    鲍勃  洛杉矶
2  查理   芝加哥

示例 4：使用过滤条件读取数据

假设我们只想读取年龄大于30的记录。

import pandas as pd

# 设置过滤条件：年龄 > 30
filters = [['年龄', '>', 30]]

# 读取 Parquet 文件，应用过滤条件
df = pd.read_parquet('data.parquet', filters=filters)

print(df)

输出

姓名  年龄      城市
2  查理   35   芝加哥

示例 5：指定数据类型后端

使用 dtype_backend 参数指定数据类型后端为 pyarrow。

import pandas as pd

# 读取 Parquet 文件，指定 dtype_backend 为 'pyarrow'
df = pd.read_parquet('data.parquet', dtype_backend='pyarrow')

print(df)
print(df.dtypes)

输出

姓名  年龄      城市
0  艾丽丝   30     纽约
1    鲍勃   25  洛杉矶
2  查理   35   芝加哥

姓名      string
年龄       int64
城市      string
dtype: object

示例 6：使用可空数据类型

读取 Parquet 文件时，使用 Pandas 的可空数据类型。

import pandas as pd

# 读取 Parquet 文件，使用可空数据类型
df = pd.read_parquet('data.parquet', use_nullable_dtypes=True)

print(df)
print(df.dtypes)

输出

姓名    年龄      城市
0  艾丽丝   30     纽约
1    鲍勃   25  洛杉矶
2  查理   35   芝加哥

姓名      string
年龄       Int64
城市      string
dtype: object

示例 7：逐块读取大型 Parquet 文件

对于非常大的 Parquet 文件，可以使用 chunksize 参数分块读取。

import pandas as pd

# 逐块读取 Parquet 文件，每块包含1000行
chunk_iter = pd.read_parquet('large_data.parquet', chunksize=1000)

for chunk in chunk_iter:
    print(chunk.head())
    # 在这里可以对每个块进行处理

输出

姓名  年龄      城市
0  艾丽丝   30     纽约
1    鲍勃   25  洛杉矶
2  查理   35   芝加哥
...

总结

pandas.read_parquet() 是一个高效、灵活的函数，用于从 Parquet 文件中读取数据并将其转换为 Pandas 的 DataFrame 对象。通过灵活配置参数，如选择引擎、指定列、应用过滤条件、选择数据类型后端等，可以满足不同的数据读取需求。无论是处理本地存储的 Parquet 文件，还是从远程存储系统中加载数据，read_parquet() 都能提供高性能的数据读取能力，极大地提升数据分析和处理的效率。

参考

https://pandas.pydata.org/docs/reference/api/pandas.read_parquet.html

< pd.read_html() 从 HTML 文档提取表格数据 pandas 文件或数据的读取和导出 to_csv() 导出为 CSV文件 >

更新时间：2024-10-10 09:26:53 标签：pandas python parquet