看过来
《pandas 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gr99123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
pandas(发音:/ˈpændəz/)是 Python 语言开发的用于数据处理(data manipulation)和数据分析(data analysis)的第三方库。它擅长处理数字型数据和时间序列数据,当然也文本型的数据也能轻松处理。
官方介绍如下:
Pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language.
Pandas 的命名来源并非「熊猫」,而是来自于计量经济学中术语面板数据(Panel data),它是一种数据集的结构类型,具有横截面和时间序列两个维度。不过,我们不用必须了解它,它只是一种灵感、思想来源。
正如它的强大和灵活,从名字中「熊猫」的意义出发让人觉得可爱,人人都喜欢它。「熊猫」作为国宝,我们中国人更应该学好它。
Pandas 对数据的处理是为数据的分析服务的,它所提供的各种数据处理方法、工具是基于数理统计学出发,包含了日常应用中的众多数据分析方法。我们学习它不光掌控它的相应操作技术,还要从它的处理思路中学习数据分析的理论和方法。
特别地,想成为或者转行数据分析师、数据产品经理、数据开发等和数据相关工作者的同学,学习 Pandas 更能让你深入数据理论和实践,更好地理解和应用数据。
Pandas 可以轻松应对白领们日常工作中的各种表格数据处理,还应用在金融、统计、数理研究、物理计算、社会科学、工程等领域里。
Pandas 可以实现复杂的处理逻辑,这些往往是 Excel 等工具无法处理的,还可以自动化、批量化,对于相同的大量的数据处理我们不需要重复去工作。
Pandas 可以做到非常震撼的可视化,它对接众多的高颜值可视化库,可以实现动态数据交互效果。
以上这些,在往后的教程中,你会有所体会。
Pandas 适合处理一个规正的二维数据(一维也可以,应用较少),即有 N 行 N 列,类似于 SQL 执行后产出的,或者 无合并单元格Excel 表格 这样的数据。它可以把多个文件的数据合并在一起,如果结构不一样,也可以经过处理进行合并。
这里说的二维数据是指,像一个矩形的平面在横向和纵向被分隔成多个格子,每个格子里存放一个数据。
上图是一个 pandas 中定义的数据框架。
另外像工作日报之类的文字为主的数据也可以进行处理,不过实践中这么做的比较少。
常用的基本功能有:
等等。
本教程会随时关注 Pandas 的版本更新变化,对于发布的新功能做介绍,对于废弃的功能做标注,可关注教程更新日志页面。
对于一个新的工具,从我们的目标出发就是能够使用它,让它发挥价值。因此,最好的方法就拿一个自己熟悉的数据去处理它,同时把日常工作需要手工处理的表格用 Pandas 来做,刚开始可能不能完全替代,但随时慢慢积累,就会得心应手。
在学习初期,只需要对着教程去模仿,把涉及到的常用操作总结归纳。养成遇到不懂的查看函数说明和查官方文档「https://pandas.pydata.org/docs/ 」查看的习惯。
本教程侧重点在 Pandas 的使用上面,暂不过多地讲解数据分析方法,不过 Pandas 提供的数据分析方法就是给我们提供了一个数据分析思路,可以帮助我们建立完善数据分析理论体系。
另外,本教程不会把所有的执行结果展示出来,而是告诉你代码的作用是什么,由你举一反三实际写出来。
接下来,查看下节教程,我们先安装 Notebook 然后开启 pandas 之旅!
更新时间:2023-09-01 10:54:41 标签:pandas 简介