pandas习题 116：解释 convert_dtypes() 的作用

看过来

《pandas 教程》持续更新中，提供建议、纠错、催更等加作者微信: gr99123（备注：pandas教程）和关注公众号「盖若」ID: gairuo。跟作者学习，请进入 Python学习课程。欢迎关注作者出版的书籍：《深入浅出Pandas》和《Python之光》。

（分析题）有以下关于 convert_dtypes() 的应用示例代码：

import pandas as pd
import numpy as np

data = {
    "id": [101, 102, None, 104],
    "name": ["Alice", "Bob", None, "David"],
    "is_active": [True, False, None, True],
    "score": [85.0, 92.0, 78.0, None]
}
df = pd.DataFrame(data)
df.dtypes
'''
id           float64
name          object
is_active     object
score        float64
dtype: object
'''

df.convert_dtypes().dtypes
'''
id                    Int64
name         string[python]
is_active           boolean
score                 Int64
dtype: object
'''

可以看到原数据 df 通过 convert_dtypes() 方法，各列的数据类型发生了变化，请结合 convert_dtypes() 的功能，分析一下为什么会发生这样的变化。

参考答案

convert_dtypes() 的核心功能就是：一键把所有列转换成能自动容纳缺失值（pd.NA）的最合适扩展类型（如 Int64、Float64、string、boolean 等），不用再手动判断 dtype。

详细拆解 convert_dtypes() 的推断过程

id 列
- 原始数据 [101, 102, None, 104]
- 数值列出现缺失值 → 自动升级为 可空整数扩展类型 Int64，既保留整数精度又支持 pd.NA。
name 列
- 原始数据 ["Alice", "Bob", None, "David"]
- 对象列全部为字符串 → 升级为 可空字符串扩展类型 string[python]（pandas 2.x 默认 backend），可安全容纳 pd.NA。
is_active 列
- 原始数据 [True, False, None, True]
- 布尔列出现缺失值 → 升级为 可空布尔扩展类型 boolean。
score 列
- 原始数据 [85.0, 92.0, 78.0, None]
- 虽然 dtype 为 float64，但 所有有效值均为整数且没有小数部分；
- convert_dtypes() 在 convert_integer=True 的默认规则下，优先转换为可空整数扩展类型 Int64，只有当存在不可整除的小数时才会保留 Float64。
- 因而最终得到 Int64。

综上，所有列均被转换为支持 pd.NA 的扩展类型，结果符合预期。

（完）

pandas习题 116：解释 convert_dtypes() 的作用

参考答案

相关内容