pandas bfill() 向后填充缺失值

看过来

《pandas 教程》持续更新中，提供建议、纠错、催更等加作者微信: gr99123（备注：pandas教程）和关注公众号「盖若」ID: gairuo。跟作者学习，请进入 Python学习课程。欢迎关注作者出版的书籍：《深入浅出Pandas》和《Python之光》。

bfill() 是 pandas 中用于向后填充缺失值 (NaN) 的方法。它将缺失值用紧随其后的非缺失值替换，从而填补数据中的空白。

语法

使用下一个有效观测值填充NA/NaN值以填补空白。

DataFrame.bfill(
    axis=None,
    inplace=False,
    limit=None,
    limit_area=None,
    downcast=_NoDefault.no_default
)

自2.0版本起已弃用：Series/DataFrame.backfill 已弃用。请改用 Series/DataFrame.bill。

适用数据类型

DataFrame
Series

参数意义

axis:
- 类型: int，可选，默认为 None
- 意义: 指定沿哪个轴填充缺失值。0 表示按列（垂直方向）操作，1 表示按行（水平方向）操作。如果 None，则默认为 0。
inplace:
- 类型: bool，可选，默认为 False
- 意义: 是否在原地修改数据。True 表示修改原始数据，False 表示返回填充后的新对象。
limit:
- 类型: int，可选，默认为 None
- 意义: 限制填充的最大数量。表示每个缺失值最多填充 limit 个非缺失值。
limit_area:
- 类型: list 或 tuple，可选，默认为 None
- 意义: 用于指定填充区域的子集。如果指定了 limit_area，填充操作将只在这些区域内进行。
downcast:
- 类型: str 或 None，可选，默认为 _NoDefault.no_default
- 意义: 用于将填充后的数据转换为更小的数据类型。可以设置为 int, float, string 等。如果不指定，数据类型将保持不变。
- 自2.2.0版本起已弃用。

返回值

返回值类型:
- 如果 inplace=False，返回一个填充后的新 DataFrame 或 Series。
- 如果 inplace=True，则返回 None，原始数据会被修改。

使用场景

数据清洗: bfill() 常用于数据预处理阶段，尤其是当数据中存在缺失值时。它能帮助填补缺失值，保持数据的完整性。
数据分析: 在进行数据分析时，可能需要处理缺失值，以确保数据的连续性和一致性。
时间序列处理: 在处理时间序列数据时，填补缺失值是一个重要步骤，bfill() 可以用来填充时间序列中的空白。

示例

Series:

s = pd.Series([1, None, None, 2])
s.bfill()
'''
0    1.0
1    2.0
2    2.0
3    2.0
dtype: float64
'''

s.bfill(limit=1)
'''
0    1.0
1    NaN
2    2.0
3    2.0
dtype: float64
'''

DataFrame:

df = pd.DataFrame({'A': [1, None, None, 4], 'B': [None, 5, None, 7]})
df
'''
      A     B
0   1.0   NaN
1   NaN   5.0
2   NaN   NaN
3   4.0   7.0
'''

df.bfill()
'''
      A     B
0   1.0   5.0
1   4.0   5.0
2   4.0   7.0
3   4.0   7.0
'''

df.bfill(limit=1)
'''
      A     B
0   1.0   5.0
1   NaN   5.0
2   4.0   7.0
3   4.0   7.0
'''

案例

例1: 基本填充

import pandas as pd
import numpy as np

# 构造示例数据
data = {
    'A': [1, np.nan, 3, np.nan],
    'B': [np.nan, 2, np.nan, 4]
}
df = pd.DataFrame(data)

# 使用 bfill 填充缺失值
df_bfilled = df.bfill()

print(df)
print(df_bfilled)

输出:

'''
     A    B
0  1.0  NaN
1  NaN  2.0
2  3.0  NaN
3  NaN  4.0

     A    B
0  1.0  2.0
1  3.0  2.0
2  3.0  4.0
3  NaN  4.0
'''

在这个例子中，bfill() 方法将 DataFrame 中的缺失值用紧随其后的非缺失值填充。例如，第一行的列 B 的缺失值被填充为 2.0，因为紧随其后的非缺失值是 2.0。

例2: 使用 limit 限制填充数量

import pandas as pd
import numpy as np

# 构造示例数据
data = {
    'A': [1, np.nan, 3, np.nan, np.nan],
    'B': [np.nan, 2, np.nan, 4, 5]
}
df = pd.DataFrame(data)

# 使用 bfill 填充缺失值，限制填充数量为 1
df_bfilled = df.bfill(limit=1)

print(df)
print(df_bfilled)

输出:

'''
     A    B
0  1.0  NaN
1  NaN  2.0
2  3.0  NaN
3  NaN  4.0
4  NaN  5.0

     A    B
0  1.0  NaN
1  3.0  2.0
2  3.0  4.0
3  NaN  5.0
4  NaN  5.0
'''

在这个例子中，limit=1 意味着每个缺失值最多被填充一个非缺失值。例如，在第二行中，A 列的缺失值被填充为 3.0，但在第四行中，A 列的缺失值仍然是 NaN，因为已经达到了填充限制。

例3: inplace=True 进行原地填充

import pandas as pd
import numpy as np

# 构造示例数据
data = {
    'A': [1, np.nan, 3],
    'B': [np.nan, 2, np.nan]
}
df = pd.DataFrame(data)

# 使用 bfill 填充缺失值，修改原始数据
df.bfill(inplace=True)

print(df)

输出:

'''
     A    B
0  1.0  2.0
1  3.0  2.0
2  3.0  NaN
'''

在这个例子中，bfill(inplace=True) 直接修改了原始 DataFrame df，将缺失值用紧随其后的非缺失值填充。

总结

bfill() 方法是处理缺失值的一个实用工具，通过向后填充缺失值，可以保持数据的连续性和完整性。它在数据清洗、数据分析和时间序列处理等场景中非常有用。通过调整参数，你可以灵活地控制填充行为和填充范围。

参考

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.bfill.html

< fillna() 填充缺失值 pandas 缺失值填充 ffill() 向前填充缺失值 >

更新时间：2024-08-09 09:16:19 标签：pandas python bfill 缺失值