看过来
《pandas 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gairuo123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
describe()
方法是 pandas 中用于生成关于数据集统计信息的摘要统计的函数。它可以在 DataFrame 或 Series 对象上使用。以下是对该方法的详细讲解:
DataFrame.describe(percentiles=None, include=None, exclude=None)
Series.describe(percentiles=None, include=None, exclude=None)
参数说明:
percentiles
:指定要显示的百分位数。默认情况下显示 25th
, 50th
, 和 75th
百分位数。include
:要描述的数据类型的列表。默认为 None,表示包括所有数据类型。exclude
:要排除的数据类型的列表。默认为 None,表示不排除任何数据类型。import pandas as pd
import numpy as np
# 创建一个示例的 DataFrame
np.random.seed(0)
data = {
'A': np.random.randn(100),
'B': np.random.rand(100) * 100,
'C': np.random.choice(['cat', 'dog', 'bird'], 100)
}
df = pd.DataFrame(data)
print("原始数据:")
print(df.head())
# 默认情况下,describe() 方法会计算数值型列的统计信息
description = df.describe()
print("默认情况下的描述统计信息:")
print(description)
输出:
原始数据:
A B C
0 1.764052 87.714177 cat
1 0.400157 72.365229 dog
2 0.978738 60.757076 cat
3 2.240893 91.597864 cat
4 1.867558 83.725426 bird
默认情况下的描述统计信息:
A B
count 100.000000 100.000000
mean 0.059808 48.224911
std 0.990020 28.281363
min -2.552990 0.008469
25% -0.631618 22.540982
50% 0.124287 48.249548
75% 0.739837 73.482907
max 2.269755 99.397648
# 包括所有列(包括非数值型列)的描述统计信息
description_all = df.describe(include='all')
print("包括所有列的描述统计信息:")
print(description_all)
输出:
包括所有列的描述统计信息:
A B C
count 100.000000 100.000000 100
unique NaN NaN 3
top NaN NaN cat
freq NaN NaN 38
mean 0.059808 48.224911 NaN
std 0.990020 28.281363 NaN
min -2.552990 0.008469 NaN
25% -0.631618 22.540982 NaN
50% 0.124287 48.249548 NaN
75% 0.739837 73.482907 NaN
max 2.269755 99.397648 NaN
这些示例展示了 describe()
方法如何在不同的数据结构中工作,并通过生成描述性统计信息,帮助我们快速了解数据的分布情况、集中趋势和离散程度。
更新时间:2024-07-23 20:18:01 标签:pandas python 描述性统计