看过来
《pandas 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gairuo123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
pandas 的 nunique()
方法用于计算 DataFrame 或 Series 中唯一值的数量。该方法可以帮助我们了解每列(或每行)中有多少不同的值,这在数据探索和数据清理中非常有用。
统计指定轴上不同元素的数量。包含不同元素数量的返回序列。可以忽略NaN值。
DataFrame.nunique(axis=0,
dropna=True)
axis
:int
,默认值是 0
指定计算的轴方向:
0
或 'index'
:按列计算唯一值的数量。1
或 'columns'
:按行计算唯一值的数量。dropna
:bool
,默认值是 True
是否排除缺失值(NaN)。
True
,排除缺失值进行计算;False
,缺失值也会被计入唯一值的数量。返回一个包含每列或每行唯一值数量的 Series。如果操作的是 DataFrame,则返回的 Series 的索引与输入数据的一致。
Series:
s = pd.Series([1, 3, 5, 7, 7])
s
'''
0 1
1 3
2 5
3 7
4 7
dtype: int64
'''
s.nunique()
# 4
DataFrame:
df = pd.DataFrame({'A': [4, 5, 6], 'B': [4, 1, 1]})
df.nunique()
'''
A 3
B 2
dtype: int64
'''
df.nunique(axis=1)
'''
0 1
1 2
2 2
dtype: int64
'''
假设我们有一个包含员工信息的 DataFrame,我们可以使用 nunique()
方法来计算每列中的唯一值数量。
import pandas as pd
# 创建示例数据
data = {
'部门': ['销售', '市场', '技术', '销售', '技术', '市场'],
'职位': ['经理', '专员', '工程师', '经理', '工程师', '专员'],
'工资': [5000, 3000, 7000, 5000, 7000, 3000]
}
df = pd.DataFrame(data)
# 计算每列的唯一值数量
df.nunique()
'''
部门 3
职位 3
工资 3
dtype: int64
'''
在这个例子中,nunique()
方法计算了每列中唯一值的数量。所有列(部门
、职位
和 工资
)都有 3 个唯一值。这表明,在这些列中,共有 3 种不同的部门、职位和工资水平。
更新时间:2024-08-08 22:13:04 标签:pandas python 唯一值 数量