pandas pd.read_table() 读取分隔符分隔文本文件

看过来

《pandas 教程》持续更新中，提供建议、纠错、催更等加作者微信: gr99123（备注：pandas教程）和关注公众号「盖若」ID: gairuo。跟作者学习，请进入 Python学习课程。欢迎关注作者出版的书籍：《深入浅出Pandas》和《Python之光》。

pandas.read_table() 是一个用于读取分隔符分隔的文本文件（如 .txt、.tsv 等）并将其转换为 Pandas DataFrame 的函数。尽管 read_table 通常被视为 read_csv 的一个特例（read_csv 更为常用且功能更强大），但在处理特定格式的文本文件时，read_table 仍然非常有用。

语法介绍

函数签名

pandas.read_table(
    filepath_or_buffer, 
    *, 
    sep=<no_default>, 
    delimiter=None, 
    header='infer', 
    names=<no_default>, 
    index_col=None, 
    usecols=None, 
    dtype=None, 
    engine=None, 
    converters=None, 
    true_values=None, 
    false_values=None, 
    skipinitialspace=False, 
    skiprows=None, 
    skipfooter=0, 
    nrows=None, 
    na_values=None, 
    keep_default_na=True, 
    na_filter=True, 
    verbose=<no_default>, 
    skip_blank_lines=True, 
    parse_dates=False, 
    infer_datetime_format=<no_default>, 
    keep_date_col=<no_default>, 
    date_parser=<no_default>, 
    date_format=None, 
    dayfirst=False, 
    cache_dates=True, 
    iterator=False, 
    chunksize=None, 
    compression='infer', 
    thousands=None, 
    decimal='.', 
    lineterminator=None, 
    quotechar='"', 
    quoting=0, 
    doublequote=True, 
    escapechar=None, 
    comment=None, 
    encoding=None, 
    encoding_errors='strict', 
    dialect=None, 
    on_bad_lines='error', 
    delim_whitespace=<no_default>, 
    low_memory=True, 
    memory_map=False, 
    float_precision=None, 
    storage_options=None, 
    dtype_backend=<no_default>
)

参数详解

由于 pandas.read_table 函数具有众多参数，以下将逐一详细解释每个参数的用途和意义：

filepath_or_buffer
- 类型: str、pathlib.Path、file-like object、URL 等。
- 意义: 指定要读取的文件路径、URL 或文件对象。例如，可以是本地文件路径或网络上的文件链接。
sep
- 类型: str，默认为制表符 \t。
- 意义: 指定字段之间的分隔符。默认使用制表符，如果文件使用其他分隔符（如逗号、分号），可以更改此参数。
delimiter
- 类型: str，默认为 None。
- 意义: 与 sep 类似，用于指定字段分隔符。通常情况下，推荐使用 sep 参数。
header
- 类型: int、list of int、None，默认为 'infer'。
- 意义: 指定用作列名的行号。如果为 None，则不会将任何行作为列名，列名需要通过 names 参数指定。
names
- 类型: array-like，默认为 None。
- 意义: 指定列名。如果文件中没有列名，或者需要重新命名列，可以通过此参数手动设置列名。
index_col
- 类型: int、str、sequence of int / str、False，默认为 None。
- 意义: 指定用作行索引的列。如果为 None，则自动生成整数索引。
usecols
- 类型: list-like、callable、None，默认为 None。
- 意义: 指定要读取的列。如果提供列名列表，则只读取这些列；也可以通过函数选择特定的列。
dtype
- 类型: Type name 或 dict of column -> type，默认为 None。
- 意义: 指定各列的数据类型。例如，可以将某列强制转换为整数或浮点数类型。
engine
- 类型: {'c', 'python'}，默认为 None。
- 意义: 指定解析引擎。'c' 引擎速度更快，适用于大多数情况；'python' 引擎更灵活，适用于处理复杂的分隔符或特殊情况。
converters
- 类型: dict，默认为 None。
- 意义: 指定列的转换函数。可以为特定列提供自定义的转换逻辑。
true_values 和 false_values
- 类型: list-like，默认为 None。
- 意义: 指定哪些值应被视为 True 或 False。例如，可以将 'Yes' 和 'No' 转换为布尔类型。
skipinitialspace
- 类型: bool，默认为 False。
- 意义: 如果为 True，则跳过分隔符后面的空格，避免读取到不必要的空格。
skiprows
- 类型: list-like、int，默认为 None。
- 意义: 跳过文件开头的行数或指定行。常用于跳过注释行或元数据行。
skipfooter
- 类型: int，默认为 0。
- 意义: 跳过文件末尾的行数。需要设置 engine='python'。
nrows
- 类型: int，默认为 None。
- 意义: 指定读取的行数。适用于读取大型文件的前几行进行快速预览。
na_values
- 类型: scalar、str、list-like，默认为 None。
- 意义: 指定哪些值应被视为缺失值（NaN）。例如，可以将 'N/A' 或 'NULL' 视为缺失值。
keep_default_na
- 类型: bool，默认为 True。
- 意义: 是否保留默认的缺失值标识符。如果设置为 False，则仅使用 na_values 指定的值作为缺失值。
na_filter
- 类型: bool，默认为 True。
- 意义: 是否检测缺失值。如果设置为 False，则不进行缺失值检测，速度更快。
verbose
- 类型: bool 或其他，默认为 False。
- 意义: 如果为 True，则在读取过程中输出更多信息。
skip_blank_lines
- 类型: bool，默认为 True。
- 意义: 是否跳过空白行。如果为 False，则空白行会被解析为缺失值行。
parse_dates
- 类型: bool、list、dict，默认为 False。
- 意义: 指定哪些列需要解析为日期。如果设置为 True，则尝试解析所有列；也可以指定具体的列。
infer_datetime_format
- 类型: bool，默认为 False。
- 意义: 如果为 True，则尝试推断日期时间格式，加快解析速度。
keep_date_col
- 类型: bool，默认为 False。
- 意义: 如果为 True，则在解析日期时保留原始日期列。
date_parser
- 类型: callable，默认为 None。
- 意义: 指定自定义的日期解析函数。可以用于处理非标准日期格式。
date_format
- 类型: str，默认为 None。
- 意义: 指定日期的格式，优化日期解析速度。
dayfirst
- 类型: bool，默认为 False。
- 意义: 如果为 True，则将日期格式中的日部分优先于月部分。例如，01/02/2020 会被解析为 1 月 2 日而不是 2 月 1 日。
cache_dates
- 类型: bool，默认为 True。
- 意义: 是否缓存已解析的日期，提升性能。
iterator
- 类型: bool，默认为 False。
- 意义: 如果为 True，则返回一个迭代器，适用于分块读取大型文件。
chunksize
- 类型: int，默认为 None。
- 意义: 指定每次读取的行数，返回一个 TextFileReader 对象，适用于逐块处理大型文件。
compression
- 类型: {'infer', 'gzip', 'bz2', 'zip', 'xz', None}，默认为 'infer'。
- 意义: 指定文件的压缩格式。'infer' 会根据文件扩展名自动推断。
thousands
- 类型: str，默认为 None。
- 意义: 指定千位分隔符，用于解析包含千位分隔符的数字。
decimal
- 类型: str，默认为 '.'。
- 意义: 指定小数点符号，用于解析不同地区的数字格式。
lineterminator
- 类型: str，默认为 None。
- 意义: 指定行终止符，默认根据平台自动识别。
quotechar
- 类型: str，默认为 '"'。
- 意义: 指定引用字符，用于处理包含分隔符的字段。
quoting
- 类型: int，默认为 0（csv.QUOTE_MINIMAL）。
- 意义: 控制何时引用字段。常见值包括：
  - 0 (csv.QUOTE_MINIMAL): 仅在必要时引用。
  - 1 (csv.QUOTE_ALL): 总是引用。
  - 2 (csv.QUOTE_NONNUMERIC): 引用非数字字段。
  - 3 (csv.QUOTE_NONE): 不引用。
doublequote
- 类型: bool，默认为 True。
- 意义: 如果为 True，则双引号内的双引号会被转义为两个双引号。
escapechar
- 类型: str，默认为 None。
- 意义: 指定转义字符，用于转义特殊字符（如分隔符、引用字符等）。
comment
- 类型: str，默认为 None。
- 意义: 指定注释字符，忽略该字符及其后的内容。
encoding
- 类型: str，默认为 None。
- 意义: 指定文件的编码格式，如 'utf-8'、'gbk' 等。
encoding_errors
- 类型: str，默认为 'strict'。
- 意义: 指定处理编码错误的方式，如 'ignore'、'replace'。
dialect
- 类型: str 或 csv.Dialect，默认为 None。
- 意义: 指定 CSV 方言，用于定义解析规则。
on_bad_lines
- 类型: {'error', 'warn', 'skip'}，默认为 'error'。
- 意义: 指定在遇到坏行（格式不正确的行）时的处理方式。可以选择报错、警告或跳过。
delim_whitespace
- 类型: bool，默认为 False。
- 意义: 如果为 True，则使用任意空白字符作为分隔符，忽略 sep 和 delimiter 参数。
low_memory
- 类型: bool，默认为 True。
- 意义: 如果为 True，则分块处理文件以降低内存使用，但可能导致数据类型推断不准确。
memory_map
- 类型: bool，默认为 False。
- 意义: 如果为 True，则使用内存映射，提高大型文件的读取速度。
float_precision
- 类型: str，默认为 None。
- 意义: 指定浮点数解析的精度，如 'high'、'legacy'。
storage_options
- 类型: dict，默认为 None。
- 意义: 指定与文件系统连接的额外选项，如 S3 或 GCS 的认证信息。
dtype_backend
- 类型: str 或 _NoDefault，默认为 _NoDefault.no_default。
- 意义: 指定数据类型的后端选项，用于高级数据类型管理。

返回值

类型: pandas.DataFrame
意义: 返回一个包含读取数据的 DataFrame 对象，便于后续的数据分析和处理。

使用场景

pandas.read_table() 主要用于读取以特定分隔符（默认是制表符）分隔的文本文件。常见的使用场景包括：

读取日志文件中的数据。
处理科学实验生成的分隔符数据。
读取其他软件导出的分隔符文本文件。

示例代码

import pandas as pd

# 从 tab 分隔符的文本文件读取数据
df = pd.read_table('data.txt', sep='\t')

# 读取带有自定义列名的文件
df = pd.read_table('data.txt',
	names=['Column1', 'Column2', 'Column3']
)

# 跳过前两行，指定分块处理的行数
df = pd.read_table('data.txt', skiprows=2, chunksize=1000)

示例

示例 1：读取简单的制表符分隔文件

假设有一个名为 data.tsv 的文件，内容如下：

Name	Age	City
Alice	30	New York
Bob	25	Los Angeles
Charlie	35	Chicago

使用 pandas.read_table() 读取该文件：

import pandas as pd

# 读取制表符分隔的文件
df = pd.read_table('data.tsv')

print(df)

输出

      Name  Age         City
0    Alice   30     New York
1      Bob   25  Los Angeles
2  Charlie   35      Chicago

示例 2：读取使用逗号分隔的文件

尽管 read_table 默认使用制表符作为分隔符，但也可以通过 sep 参数指定其他分隔符。例如，读取一个以逗号分隔的文件 data.csv：

data.csv 文件内容：

Name,Age,City
Alice,30,New York
Bob,25,Los Angeles
Charlie,35,Chicago

使用 read_table 读取：

import pandas as pd

# 读取逗号分隔的文件
df = pd.read_table('data.csv', sep=',')

print(df)

输出

      Name  Age         City
0    Alice   30     New York
1      Bob   25  Los Angeles
2  Charlie   35      Chicago

示例 3：指定列类型和缺失值处理

假设有一个包含缺失值的文件 data_missing.tsv：

Name	Age	City
Alice	30	New York
Bob		N/A
Charlie	35	Chicago

使用 read_table 读取并处理缺失值：

import pandas as pd

# 读取包含缺失值的文件，并指定 Age 列为整数类型
df = pd.read_table('data_missing.tsv', sep='\t', dtype={'Age': 'Int64'}, na_values=['N/A'])

print(df)

输出

      Name   Age      City
0    Alice    30  New York
1      Bob  <NA>       NaN
2  Charlie    35   Chicago

示例 4：跳过特定行和指定列

假设有一个文件 data_skip.tsv，内容如下：

# This is a comment line
Name	Age	City
Alice	30	New York
Bob	25	Los Angeles
Charlie	35	Chicago

使用 read_table 跳过注释行，并只读取 Name 和 City 两列：

import pandas as pd

# 读取文件，跳过第一行注释，并选择特定列
df = pd.read_table('data_skip.tsv', sep='\t', skiprows=1, usecols=['Name', 'City'])

print(df)

输出

      Name         City
0    Alice     New York
1      Bob  Los Angeles
2  Charlie      Chicago

示例 5：读取带有日期的文件并解析日期

假设有一个文件 data_dates.tsv，内容如下：

Name	Birthdate
Alice	1990-01-01
Bob	1985-05-23
Charlie	1992-07-15

使用 read_table 读取并解析 Birthdate 列为日期类型：

import pandas as pd

# 读取文件，并解析 Birthdate 列为日期
df = pd.read_table('data_dates.tsv', sep='\t', parse_dates=['Birthdate'])

print(df)
print(df.dtypes)

输出

      Name  Birthdate
0    Alice 1990-01-01
1      Bob 1985-05-23
2  Charlie 1992-07-15

Name                 object
Birthdate    datetime64[ns]
dtype: object

示例 6：处理包含引号和特殊字符的文件

假设有一个文件 data_quotes.tsv，内容如下：

Name	Comment
Alice	"Hello, World!"
Bob	"Goodbye\tWorld"
Charlie	"No comment"

使用 read_table 读取并正确处理引号和特殊字符：

import pandas as pd

# 读取包含引号和特殊字符的文件
df = pd.read_table('data_quotes.tsv', sep='\t', quotechar='"', escapechar='\\')

print(df)

输出

      Name         Comment
0    Alice   Hello, World!
1      Bob  Goodbye\tWorld
2  Charlie      No comment

总结

pandas.read_table() 是一个功能强大的函数，适用于读取各种以特定分隔符分隔的文本文件。通过灵活设置参数，可以处理不同格式和复杂度的数据文件。在实际数据分析过程中，掌握 read_table 的使用方法能够有效提升数据读取和预处理的效率。尽管 read_csv 更为常用，但在处理制表符分隔或其他特定分隔符的文件时，read_table 依然是一个不可或缺的工具。

参考

https://pandas.pydata.org/docs/reference/api/pandas.read_table.html

< pd.read_pickle() pandas 文件或数据的读取和导出 pd.DataFrame.from_dict() 从字典创建 DataFrame >

< pd.read_pickle() pandas 函数详细介绍 replace() 数据替换 >

更新时间：2024-10-10 08:21:48 标签：pandas python table