看过来
《pandas 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gairuo123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
df.groupby()
方法可以按指定字段对 DataFrame 进行分组,生成一个分组器对象,然后再把这个对象的各个字段按一定的聚合方法输出。
df.groupby(self, by=None, axis=0, level=None,
as_index: bool=True, sort: bool=True,
group_keys: bool=True,
squeeze: bool=False,
observed: bool=False, dropna=True)
其中 by 为分组字段,由于是第一个参数可以省略,可以按列表给多个。会返回一个groupby_generic.DataFrameGroupBy
对象,如果不给定聚合方法,不会返回 DataFrame。
我们可以实现类似 SQL groupby 那样的数据透视功能:
df.groupby('team').sum() # 按团队分组对应列相加
df.groupby('team').mean() # 按团队分组对应列求平均
# 不同列不同的计算方法
df.groupby('team').agg({'Q1': sum, # 总和
'Q2': 'count', # 总数
'Q3':'mean', # 平均
'Q4': max}) # 最大值
注:
dropna=Flase
以上是我们经常使用的方法。
对多层索引数据进行分组,可以查看多层索引数据分组内容。
grouped = df.groupby('team')
groupby 对数据分组后,会生成一个分组对象(上例中的 grouped ),分组对象非常强大,我们可以在分组对象上对数据做各种计算处理,后边我们将介绍它的操作。
更新时间:2021-09-26 14:53:09 标签:pandas 分组 groupby