pandas pd.read_json() 读取 JSON 字符串

看过来

《pandas 教程》持续更新中，提供建议、纠错、催更等加作者微信: gr99123（备注：pandas教程）和关注公众号「盖若」ID: gairuo。跟作者学习，请进入 Python学习课程。欢迎关注作者出版的书籍：《深入浅出Pandas》和《Python之光》。

pandas.read_json() 是一个用于将 JSON 数据读入 Pandas DataFrame 的函数。它非常适合处理来自 Web API、文件或其他数据源的 JSON 格式数据，并将其转换为 Pandas 数据结构，方便后续的分析与操作。

语法

函数签名

pandas.read_json(
    path_or_buf, 
    *, 
    orient=None, 
    typ='frame', 
    dtype=None, 
    convert_axes=None, 
    convert_dates=True, 
    keep_default_dates=True, 
    precise_float=False, 
    date_unit=None, 
    encoding=None, 
    encoding_errors='strict', 
    lines=False, 
    chunksize=None, 
    compression='infer', 
    nrows=None, 
    storage_options=None, 
    dtype_backend=_NoDefault.no_default, 
    engine='ujson'
)

参数解释

path_or_buf:
- 类型: str、pathlib.Path、file-like object、bytes 或 None
- 意义: 指定要读取的 JSON 数据来源，可以是文件路径、URL、文件对象、字符串或字节流。如果传入 None，则需要在 json 参数中直接传递 JSON 字符串。
orient:
- 类型: str
- 默认值: None
- 意义: 定义 JSON 数据的格式。常见选项包括：
  - 'split': 数据分为 index、columns 和 data 三部分。
  - 'records': 每一行是一个字典，列名是键。
  - 'index': JSON 对象的键是索引，值是列。
  - 'columns': JSON 对象的键是列，值是列数据。
  - 'values': 数据只包含值，没有列或索引。
typ:
- 类型: {'frame', 'series'}
- 默认值: 'frame'
- 意义: 指定返回的数据类型，是 DataFrame 还是 Series。大部分情况下使用默认的 DataFrame。
dtype:
- 类型: bool、dict、None
- 默认值: None
- 意义: 用于指定数据类型。如果设置为 False，将不会进行类型转换。你也可以传入字典，指定各列的数据类型。
convert_axes:
- 类型: bool、None
- 默认值: None
- 意义: 控制是否转换轴标签（例如索引或列名）。True 表示进行转换。
convert_dates:
- 类型: bool、list
- 默认值: True
- 意义: 指定是否将可能的日期字符串转换为日期类型。可以传入列表指定特定的列进行转换。
keep_default_dates:
- 类型: bool
- 默认值: True
- 意义: 如果为 False，不会将默认的列（如 'date'）解析为日期。
precise_float:
- 类型: bool
- 默认值: False
- 意义: 指定是否以高精度解析浮点数。如果设为 True，可以提高浮点数解析的精度。
date_unit:
- 类型: str
- 默认值: None
- 意义: 指定日期时间单位，例如 's'、'ms'、'us'、'ns' 等。
encoding:
- 类型: str
- 默认值: None
- 意义: 指定文件的编码格式，例如 'utf-8'。
encoding_errors:
- 类型: str
- 默认值: 'strict'
- 意义: 处理编码错误的方式，如 'ignore'、'replace'。
lines:
- 类型: bool
- 默认值: False
- 意义: 如果设置为 True，则将每一行视为一个 JSON 对象，非常适合处理多行 JSON 数据。
chunksize:
- 类型: int、None
- 默认值: None
- 意义: 指定每次读取的行数，以便逐块读取大文件。
compression:
- 类型: {'infer', 'gzip', 'bz2', 'zip', 'xz', None}
- 默认值: 'infer'
- 意义: 指定数据的压缩格式，'infer' 会自动推断。
nrows:
- 类型: int、None
- 默认值: None
- 意义: 指定读取的行数，适用于读取部分数据。
storage_options:
- 类型: dict、None
- 默认值: None
- 意义: 指定与文件系统连接的额外选项，如 S3 或 GCS。
dtype_backend:
- 类型: str 或 _NoDefault
- 默认值: _NoDefault.no_default
- 意义: 该参数允许你指定数据类型的后端选项。
engine:
- 类型: str
- 默认值: 'ujson'
- 意义: 指定 JSON 解析器，可以是 'ujson' 或 'pyjson'。'ujson' 更快，但可能不支持某些复杂的 JSON 结构。

返回值

类型: pandas.DataFrame 或 pandas.Series
意义: 返回一个 DataFrame 或 Series，其中包含了从 JSON 数据中解析出的内容。

使用场景

pandas.read_json() 主要用于处理 JSON 数据，这种数据格式广泛应用于 Web 服务、文件存储等场景。该函数可以帮助你轻松地将 JSON 数据转化为 Pandas 的数据结构，便于后续的数据处理和分析。

示例

from io import StringIO
df = pd.DataFrame([['a', 'b'], ['c', 'd']],
                  index=['row 1', 'row 2'],
                  columns=['col 1', 'col 2'])

使用“split”格式的JSON对数据帧进行编码/解码：

df.to_json(orient='split')
# '{"columns":["col 1","col 2"],"index":["row 1","row 2"],"data":[["a","b"],["c","d"]]}'
pd.read_json(StringIO(_), orient='split')
'''
      col 1 col 2
row 1     a     b
row 2     c     d
'''

使用“index”格式的JSON对数据帧进行编码/解码：

df.to_json(orient='index')
# '{"row 1":{"col 1":"a","col 2":"b"},"row 2":{"col 1":"c","col 2":"d"}}'
pd.read_json(StringIO(_), orient='index')
'''
      col 1 col 2
row 1     a     b
row 2     c     d
'''

使用“记录”格式的JSON对数据帧进行编码/解码。请注意，此编码不会保留索引标签。

df.to_json(orient='records')
# '[{"col 1":"a","col 2":"b"},{"col 1":"c","col 2":"d"}]'
pd.read_json(StringIO(_), orient='records')
'''
  col 1 col 2
0     a     b
1     c     d
'''

使用表模式编码:

df.to_json(orient='table')
'''
    '{"schema":{"fields":[{"name":"index","type":"string"},{"name":"col 1","type":"string"},
	{"name":"col 2","type":"string"}],"primaryKey":["index"],"pandas_version":"1.4.0"},
	"data":[{"index":"row 1","col 1":"a","col 2":"b"},{"index":"row 2","col 1":"c","col 2":"d"}]}'
'''

以下示例使用dtype_backend=“numpy_nullable”

data = '''{"index": {"0": 0, "1": 1},
       "a": {"0": 1, "1": null},
       "b": {"0": 2.5, "1": 4.5},
       "c": {"0": true, "1": false},
       "d": {"0": "a", "1": "b"},
       "e": {"0": 1577.2, "1": 1577.1}}'''
pd.read_json(StringIO(data), dtype_backend="numpy_nullable")
'''
   index     a    b      c  d       e
0      0     1  2.5   True  a  1577.2
1      1  <NA>  4.5  False  b  1577.1
'''

总结

pandas.read_json() 是一个灵活而强大的函数，适合处理各种 JSON 数据格式。通过调整不同的参数，你可以轻松地解析复杂的 JSON 数据，并将其转换为 Pandas 中的 DataFrame 或 Series，用于后续的数据分析和处理。

参考

https://pandas.pydata.org/docs/reference/api/pandas.read_json.html

< pd.read_clipboard() 从剪贴板读取数据 pandas 文件或数据的读取和导出 pd.read_sql() 读取数据库数据 >

更新时间：2024-09-08 15:34:53 标签：pandas python json