pandas 分类数据创建

看过来

《pandas 教程》持续更新中，提供建议、纠错、催更等加作者微信: gr99123（备注：pandas教程）和关注公众号「盖若」ID: gairuo。跟作者学习，请进入 Python学习课程。欢迎关注作者出版的书籍：《深入浅出Pandas》和《Python之光》。

分类数据（Categorical data）具有较高的理解和执行效率，可以通过多种方式创建 Series 或者 DataFrame 中的列。

Series 创建

使用 dtype="category" 来指定数据类型：

s = pd.Series(["a", "b", "c", "a"], dtype="category")
s
'''
0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]
'''

.astype('category') 可以转换为分类数据：

df = pd.DataFrame({"A": ["a", "b", "c", "a"]})
df["B"] = df["A"].astype('category')

一些特殊的方法下，会自动创建分类数据类型：

df = pd.DataFrame({'value': np.random.randint(0, 100, 20)})
labels = ["{0} - {1}".format(i, i + 9) for i in range(0, 100, 10)]
df['group'] = pd.cut(df.value, range(0, 105, 10), right=False, labels=labels)
df.head(10)
df.dtypes
'''
value       int64
group    category
dtype: object
'''

pd.Categorical

pandas.Categorical 可以创建一个类型数据序列到 DataFrame 中：

raw_cat = pd.Categorical(["a", "b", "c", "a"],
                         categories=["b", "c", "d"],
                         ordered=False)
s = pd.Series(raw_cat)
'''
Out[12]: 
0    NaN
1      b
2      c
3    NaN
dtype: category
Categories (3, object): [b, c, d]
'''
df = pd.DataFrame({"A": ["a", "b", "c", "a"]})
df["B"] = raw_cat
df
'''
   A    B
0  a  NaN
1  b    b
2  c    c
3  a  NaN
'''
df.dtypes
'''
A      object
B    category
dtype: object
'''

DataFrame 创建

与将单个列转换为分类相似，可以在构造期间或构造之后将 DataFrame 中的所有列批量转换为分类的类别。

df = pd.DataFrame({'A': list('abca'), 'B': list('bccd')}, dtype="category")
df.dtypes
'''
A    category
B    category
dtype: object
'''
df['A']
'''
0    a
1    b
2    c
3    a
Name: A, dtype: category
Categories (3, object): [a, b, c]
'''

也可以用 df.astype('category') 进行转换。

CategoricalDtype

CategoricalDtype 是 pandas 的类型数据对象，它可以传入以下参数：

categories: 没有缺失值的不重复序列
ordered: 布尔值，顺序的控制，默认是没有顺序的

CategoricalDtype(['a', 'b', 'c'])
# CategoricalDtype(categories=['a', 'b', 'c'], ordered=False)

CategoricalDtype(['a', 'b', 'c'], ordered=True)
# CategoricalDtype(categories=['a', 'b', 'c'], ordered=True)

CategoricalDtype()
# CategoricalDtype(categories=None, ordered=False)

CategoricalDtype 可以在 Pandas 指定 dtype 的任何地方，例如pandas.read_csv()，pandas.DataFrame.astype() 或 Series 构造函数中。

为方便起见，当您希望类别的默认行为是无序的并且等于数组中的设置值时，可以使用字符串 'category' 代替 CategoricalDtype。换句话说，dtype='category' 等效于 dtype = CategoricalDtype()。

只要 CategoricalDtype 的两个实例具有相同的类别和顺序，它们的比较就相等。比较两个无序分类时，不考虑类别的顺序。

控制行为

以上的例子中我们使用 dtype='category' 指定了分类数据类型，其中：

具体分类是从数据中推断出来的
具体分类数据是没有顺序的

我们也可以使用 CategoricalDtype 实例来定义分类数据，同时还可以给定顺序：

from pandas.api.types import CategoricalDtype
s = pd.Series(["a", "b", "c", "a"])
cat_type = CategoricalDtype(categories=["b", "c", "d"],
                            ordered=True)
s_cat = s.astype(cat_type)
s_cat
'''
0    NaN
1      b
2      c
3    NaN
dtype: category
Categories (3, object): [b < c < d]
'''

同样，CategoricalDtype可与DataFrame一起使用，以确保类别在所有列之间是一致的。

from pandas.api.types import CategoricalDtype
df = pd.DataFrame({'A': list('abca'), 'B': list('bccd')})
cat_type = CategoricalDtype(categories=list('abcd'),
                            ordered=True)
df_cat = df.astype(cat_type)
df_cat['A']
'''
0    a
1    b
2    c
3    a
Name: A, dtype: category
Categories (4, object): [a < b < c < d]
'''

可以抽取分类数据:

categories = pd.unique(df.to_numpy().ravel())

如果已经有了 code 和类别，则可以使用 from_codes() 构造函数在常规构造函数模式下保存分解步骤:

splitter = np.random.choice([0, 1], 5, p=[0.5, 0.5])
s = pd.Series(pd.Categorical.from_codes(splitter,
                                        categories=["train", "test"]))

重新获取原始数据

若要返回原始 Series 或 NumPy 数组，请使用 Series.astype(original_dtype) 或np.asarray(original_dtype)：

s = pd.Series(["a", "b", "c", "a"])
s
'''
0    a
1    b
2    c
3    a
dtype: object
'''

s2 = s.astype('category')
s2
'''
0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]
'''

s2.astype(str)
'''
0    a
1    b
2    c
3    a
dtype: object
'''
np.asarray(s2)
# array(['a', 'b', 'c', 'a'], dtype=object)

< pandas 分类数据 pandas 教程分类数据的使用 >

更新时间：2020-06-25 11:36:07 标签：pandas 分类数据