说明
《Python 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gairuo123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
最近英国漏报将近16000个新冠病例成为了热门新闻,原因更是让人大跌眼镜,竟然是 Excel 超出最大值,抛开英国抗疫的整体的不力不说,作为一个数据人我们倒是可以思考下如何来解决大数据分析的问题。
众所周知,Excel 在数据分析、数据探索领域的地位是一骑绝尘,是所有数据人必须掌握的一门恰饭技能。但是遇到上边英国的问题有没有解法,到底怎么解决,作为专业的数据做作业者,这些问题可能是家常便饭,一个小小Excel实在是驱动不了动辄上百万的数据,更不能任由你随心所欲对数据施加魔法。
回头看看英国疫情上报的问题,可用以下几行代码解决:
import pandas as pd
# 读取截止昨日的总数据
df = pd.read_csv('UK-covid19-截止20201011.csv')
# 填写好今日的数据,并读取
df_today = pd.read_excel('UK-covid19-20201012.xlsx')
# 将今日数据追加到总数据
df.append(df_today)
# 导出文件,上报
df.to_csv('UK-covid19-截止20201012.csv')
需要注意的是Excel 有最大值限制,就不能用 Excel了,可以使用 CSV,当然,在收集数据时由于单日数据量相对较少,依然可以使用 Excel。
是不是很简单,每个单词都这认识,甚至这些代码表达操作的套路也是那么清晰,聪明的朋友会发现,在这个例子中,我们使用了 Python。
可以说,Python 近些年火起来和大数据的发展不无关系,这里我们不讨论它在整个数据行业甚至信息产业中起到的作用,就说说为什么数据分析离不开它,为什么数据人终究还是要掌握它。
不知道大家在看求职过程中是否有注意到,JD 经常会要求有数据分析能力、掌握脚本语言,甚至会直接要求会使用 Python,而对数据分析师来说这些都是必须的。
Python 现在已经慢慢成为了一个职场上必备的技能,不光是可能用它来做复杂的数据处理、数据分析、自动化办公等,掌握它会被认为有超强的逻辑思考能力,会让竞争力直线加强。
说到数据分析师、数据产品经理,由于整个行业的逐渐成熟,分析方法理论的发展,对数据的分析操作会越来越复杂,传统工具的支持已经达到瓶颈,这就要求他们必要掌握编程语言。因此,从职业的发展方面来说,学习 Python 已经到了一个不得不掌握的程度。
分析数据分析师掌握的两个其他典型工具 SQL 和 Excel,其实都不是专业的数据分析工具。
SQL是针对数据库操作的低代码模式,它甚至不能称之为一种语言,对分析来说,它的核心用途是把数据按照一定的规则筛选提取出来,虽然各大数据库为 SQL 添加统计性的函数,但也是只是锦上添花。
Excel 提供了一个格式化数据存储形式,大多数场景在于对数据的整理、展示方面,它没严格约束的数据类型,虽有丰富而强大函数库,但在数据分析方面也仅是业务选手中的强者。其他三方的数据分析工具也只是让数据操作简化、傻瓜化,适合数据使用者做一些简单的数据探索和展示。因此,数据分析师来说,必须掌握编程语言,才能肆意挥洒你的数据创意。
我们知道,编程语言有很多种,Java 是各大互联网公司的支撑系统的开发语言,大数据业务的开发也主要由它在承担,C 语言更偏向底层,一般做一些底层的高性能服务,Ruby、Go 等小众语言又在各自领域大放光彩。
Python 语言的大火与它的简单语法,简单的操作,简单的编程思想有密切的关系,在一项针对掌握多门编程语言的开发者调整中,Python 毫无争议的位居最简单易学之榜首。
Python 从设计之初就注重易于编写、易于阅读,经过多年的发展,吸收了其他语言的一些优秀,融为一体,也能帮助我们理解和学习其他语言。Python 是最适合的编程入门语言,近年来经常会有新闻报道各地的大学甚至小学开设 Python 编程课程。
Python 除了数据分析,它还是一个多面手,可以开发爬虫,做网站,开发游戏,图形图像处理,自动化运维,人工智能等多个领域都有很广泛的应用,这就使 Python 成为一个全能选手,我们可以使用一个技术解决遇到的所有问题,是一个高性价比的语言。
在数据分析领域,Python 集齐了数据数据采集、数据处理、科学计算、数据可视化,数据建模,机器学习等无死角的能力,这些能力由广泛的开发者社区参加,全球顶尖的开发人员为你打造轮子。Python 生态中提供的工具涵盖了数据科学届前沿的学术成果,可以第一时间方便地应用到数据分析实践当中。
在学习方面,目前也是资料最多最全面的语言,在遇到问题时,有专业的网站可以进行问答互动求助。
这些方面的发展,形成了一个良性循环,让 Python 在数据分析领域所向披靡。
(完)
更新时间:Nov. 12, 2021, 9:26 a.m. 标签:python 数据分析