pandas Group By 基础使用

看过来

《pandas 教程》持续更新中，提供建议、纠错、催更等加作者微信: gr99123（备注：pandas教程）和关注公众号「盖若」ID: gairuo。跟作者学习，请进入 Python学习课程。欢迎关注作者出版的书籍：《深入浅出Pandas》和《Python之光》。

df.groupby() 方法可以按指定字段对 DataFrame 进行分组，生成一个分组器对象，然后再把这个对象的各个字段按一定的聚合方法输出。

语法结构

df.groupby(self, by=None, axis=0, level=None,
           as_index: bool=True, sort: bool=True,
           group_keys: bool=True,
           squeeze: bool=False,
           observed: bool=False, dropna=True)

其中 by 为分组字段，由于是第一个参数可以省略，可以按列表给多个。会返回一个groupby_generic.DataFrameGroupBy对象，如果不给定聚合方法，不会返回 DataFrame。

基本用法

我们可以实现类似 SQL groupby 那样的数据透视功能：

df.groupby('team').sum() # 按团队分组对应列相加
df.groupby('team').mean() # 按团队分组对应列求平均
# 不同列不同的计算方法
df.groupby('team').agg({'Q1': sum,  # 总和
                        'Q2': 'count', # 总数
                        'Q3':'mean', # 平均
                        'Q4': max}) # 最大值

pandasgroupby

注：

如果按一列聚合，只传列名字符串，如果多个就要传由列名组成的列表
聚合方法可以使用 Pandas 的数学统计函数或者 Numpy 的统计函数
如果是 python 的内置统计函数，直接使用变量，不需要加引号
如果需要将空值也进行聚合，需要传入 dropna=Flase

以上是我们经常使用的方法。

多层索引分组

对多层索引数据进行分组，可以查看多层索引数据分组内容。

分组对象

grouped = df.groupby('team')

groupby 对数据分组后，会生成一个分组对象（上例中的 grouped ），分组对象非常强大，我们可以在分组对象上对数据做各种计算处理，后边我们将介绍它的操作。

< pandas 的聚合分组 pandas 教程分组对象及创建 >

更新时间：2021-09-26 14:53:09 标签：pandas 分组 groupby