看过来
《pandas 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gairuo123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
pandas 将读取到的数据加载到自己的叫做 Series
和 DataFrame
的数据结构框架当中,数据一旦进入这两种框架,我们就可以按照这些框架自己的处理方法进行处理,这是对数据的一种高级抽象。
维数 | 名称 | 描述 |
---|---|---|
1 | Series | 带标签的一维同构数组 |
2 | DataFrame | 带标签的,大小可变的,二维异构表格 |
注:之前支持三维的面板(Panel)结构已经不再支持。
数据结构就像一个存放数据的架子,有多行多列,每个数据在一个格子里,每个格子有自己的编号。比如一个剧场的座位,我们在横向编成 1排、2排、3排等,在纵向编成 1号、2号、3号等,那一个具体的位置就如 4排18号、6排1号等,我们每个人落座后就像一个具体的数据。
数据结构提供了一个数据框架,pandas 不用关注你给它的是什么业务数据,只要符合这个框架就能放进去,它会提供各种针对这个框架的处理方法,你只需要根据你的数据分析需求去使用它。
Series (系列、数列、序列)是一个带有标签的一维数组。以下ƒ各国的 GDP 就是一个典型的 Series,国家是标签、索引,不是具体的数据,起到解释数据的作用。
中国 14.22
美国 21.34
日本 5.18
dtype: float64
带有同样标签和索引的 Series 可以组成一个 DataFrame,比如我们再增加一个国家的人口,下边会讲到。
DataFrame 是 Pandas 定义的一个二维数据结构。如上图所示:
熟悉了上边的概念,我们来看看一个具体的 DataFrame:
人口 GDP
中国 14.33 14.22
美国 3.29 21.34
日本 1.26 5.18
这个例子是在 Series 的例子上演化而来,其中:
这就是一个典型的 DataFrame 结构。
Numpy
是一个高效的科学计算库,Panas 的这些数据结构是构建在 Numpy 数组之上,所以处理速度非常快。作为使用,我们不用专门去学习 Numpy 的基础知识,在使用过程中如果遇到可以去了解学习一下。下节会专门介绍一些基础的用法,不过都没用先去学习它,等用去它的时候再去查一查。
Series
和 DataFrame
里边的值都是可变的,它们都可以增加行,并排序,Series 只有一列不能再增加,DataFrame 可以增加列。
我们在处理数据时,不要对原始数据及转入进来的初始数据(如 DataFrame 一般变量为 df)进行改动,而是复制生成新的对象,或者使用方法链,这样比较稳妥。试想,你如果改变了上边两个步骤的数据如果分析方法错误就会增加调整成本,如果是源数据集有可能造成无源挽回的损失。
更新时间:2024-05-04 21:47:36 标签:pandas 数据结构