pandas 按组筛选部分大于平均数的列

看过来

《pandas 教程》持续更新中，提供建议、纠错、催更等加作者微信: gr99123（备注：pandas教程）和关注公众号「盖若」ID: gairuo。跟作者学习，请进入 Python学习课程。欢迎关注作者出版的书籍：《深入浅出Pandas》和《Python之光》。

在气候变化研究中,可以按照年份或更长时间范围对各种气象指标(如温度、降水量等)进行分组,计算每组的平均值,并与历史数据进行对比,筛选出异常值,用于分析气候变化趋势和影响。我们本例来研究一下如何利用 pandas 筛选部分列对应平均值的情况。

数据与需求

我们构造数据如下：

import pandas as pd
import io

data = '''
name temp  number     area  value1  value2
   A  10C       1    China       1       8
   A  10C       2    China       3      10
   A  20C       3    China       5       4
   A  30C       4    China       7       6
   B  10C       1  America      12      20
   B  20C       2  America      14      22
   B  30C       3  America      16      24
   B  40C       4  America      18      26
'''

df = pd.read_csv(io.StringIO(data), sep=r'\s+')
df
# ...

我们期望按照 name 列分组，对于 value1 和 value2 两列，大于平均值的保留，小于平均值的舍弃，其他列不变化保留即可。

思路

我们先看看单个列，如 value1 如何实现需求中的逻辑，然后再将它写成批量代码。

我们先对 name 进行分组，然后取分组对象的 value1 列，用 transform() 应用 mean 求得各组的平均值，然后与 value1 进行比较，得到一个布尔序列。

用 where 传入以上布尔序列就将不符合要求的值设置为 Nan 了。

代码

仅 value1 的代码如下：

(
    df.value1
    .where(
        df.value1 > df.groupby('name')
           .value1.transform('mean')
    )
)
'''
0     NaN
1     NaN
2     5.0
3     7.0
4     NaN
5     NaN
6    16.0
7    18.0
Name: value1, dtype: float64
'''

然后根据思路设计成函数，应用到每行：

def func(ser:pd.Series) -> pd.Series:
    if (col:=ser.name) in ['value1', 'value2']:
        ser_gb = df.groupby('name')[col]
        ser_mean = ser_gb.transform('mean')
        return ser.where(ser > ser_mean)
    else:
        return ser

df.apply(func)
'''
  name temp  number     area  value1  value2
0    A  10C       1    China     NaN     8.0
1    A  10C       2    China     NaN    10.0
2    A  20C       3    China     5.0     NaN
3    A  30C       4    China     7.0     NaN
4    B  10C       1  America     NaN     NaN
5    B  20C       2  America     NaN     NaN
6    B  30C       3  America    16.0    24.0
7    B  40C       4  America    18.0    26.0
'''

就完成了需求。

（完）

pandas 按组筛选部分大于平均数的列

数据与需求

思路

代码

相关内容