看过来
《pandas 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gairuo123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
数据清洗或数据清理是从记录集、表或数据库中检测和纠正损坏或记录不准确的数据的过程。识别数据中不完整、不正确、不准确或不相关的部分,然后替换、修改或删除脏的或粗糙的数据。
数据清洗是通过删除或修改不正确、不完整、不相关、重复或格式不正确的数据来为数据分析做准备的过程。
当涉及到分析数据时,这些数据通常是不必要的或没有帮助的,因为它可能会阻碍分析过程或导致不准确的结果。有几种方法可以清理数据,具体取决于数据的存储方式以及数据分析的方向。
数据清理不是简单地擦除信息以为新数据腾出空间,而是找到一种在不必删除信息的情况下最大限度地提高数据集准确性的方法。
首先,数据清理包括删除数据,也包括修复拼写和语法错误、标准化数据集、纠正相关错误(如空字段、缺少代码和识别重复数据点)。数据清理被认为是数据科学基础的一个基本要素,因为它在分析过程和发现可靠答案中起着重要作用。
最重要的是,数据清理的目标是创建标准化和统一的数据集,以允许商业智能和数据分析工具轻松访问和查找正确的数据。
Pandas 提供以下核心的数据清洗操作:
主要完成以下工作:
接下来,请继续查看教程,看看 Pandas 在这方面是怎么做的吧。
更新时间:2021-03-02 22:03:06 标签:pandas 数据清洗