看过来
《pandas 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gr99123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
因子化值是指将个一维的数据,由于在大量的重复值,可以解析成枚举值,这样我们就方便进行分辨。factorize 既可以用作顶层函数 pandas.factorize()
,也可以用作Series.factorize()
和 Index.factorize()
方法。
将一个方法进行因子化后将返回两个值,一个是因子化后的编码列表,一个是原数据的去重值列表:
codes, uniques = pd.factorize(['b', 'b', 'a', 'c', 'b'])
codes
# array([0, 0, 1, 2, 0])
uniques
# array(['b', 'a', 'c'], dtype=object)
使用 sort=True
参数后将对唯一性进行排序,编码列表将继续与原值保持对应关系,但从值的大小上将体现出顺序。
codes, uniques = pd.factorize(['b', 'b', 'a', 'c', 'b'], sort=True)
codes
# array([1, 1, 0, 2, 1])
uniques
# array(['a', 'b', 'c'], dtype=object)
缺失值不会出现在唯一值列表中,在编码中将为 -1:
codes, uniques = pd.factorize(['b', None, 'a', 'c', 'b'])
codes
# array([ 0, -1, 1, 2, 0])
uniques
# array(['b', 'a', 'c'], dtype=object)
Categorical
枚举类型也可以使用此方法:
cat = pd.Categorical(['a', 'a', 'c'], categories=['a', 'b', 'c'])
codes, uniques = pd.factorize(cat)
codes
# array([0, 0, 1])
uniques
# [a, c]
# Categories (3, object): [a, b, c]
对 Series 操作后唯一值将生成一个 index 对象:
cat = pd.Series(['a', 'a', 'c'])
codes, uniques = pd.factorize(cat)
codes
# array([0, 0, 1])
uniques
# Index(['a', 'c'], dtype='object')
更新时间:2020-06-09 06:59:09 标签:pandas 因子化