公告
《深入浅出Pandas:利用Python进行数据处理与分析》已出版,各大电商平台均有销售。跟作者学习,请进入 Python学习课程。欢迎关注作者的相关书籍 《Python之光》。
《深入浅出Pandas:利用Python进行数据处理与分析》及盖若网站 Pandas教程中使用的相关数据集。为了降低读者的认知成本,本书在讲解过程中使用统一的数据集,同时也尽量使用极简的数据集,因此全书所使用的数据集较少。
书籍和教程使用到以下数据集,可根据需要下载学习使用:
在整个书籍中,广泛使用了为文件名为 team.xlsx 的数据集:
在案例部分,使用到了以下数据集:
在书中的讲解中,大量使用到了一些文本数据集,以下按首次出现章节顺序进行整理。
1.2.3:
# 清华大学提供的镜像站点
https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
2.4.1:
'''
中国 14.34
美国 21.43
日本 5.08
dtype: float64
'''
2.4.3:
'''
人口 GDP
中国 13.97 14.34
美国 3.28 21.43
日本 1.26 5.08
'''
2.5.2:
df = pd.DataFrame({'国家': ['中国', '美国', '日本'],
'地区': ['亚洲', '北美', '亚洲'],
'人口': [13.97, 3.28, 1.26],
'GDP': [14.34, 21.43, 5.08],
})
2.5.4:
d = {'国家': ['中国', '美国', '日本'],
'人口': [14.33, 3.29, 1.26]}
3.1.3:
jdata='{"res":{"model":"iPhone","browser":"Safari","version":"604.1"},"status":200}'
3.1.5:
'''
x y z
a 1 2 3
b 4 5 6
c 7 8 9
'''
3.2.2:
data = ('col1,col2,col3\n'
'a,b,1\n'
'a,b,2\n'
'c,d,3')
data = (b'word,length\n'
b'Tr\xc3\xa4umen,7\n'
b'Gr\xc3\xbc\xc3\x9fe,5')
8.2.1:
# 索引
index_arrays = [[1, 1, 2, 2], ['男', '女', '男', '女']]
# 列名
columns_arrays = [['2019', '2019', '2020', '2020'],
['上半年', '下半年', '上半年', '下半年',]]
# 索引转移为多层
index = pd.MultiIndex.from_arrays(index_arrays,
names=('班级', '性别'))
# 列名转换为多层
columns = pd.MultiIndex.from_arrays(columns_arrays,
names=('年份', '学期'))
# 应用在 DataFrame 中
df = pd.DataFrame([(88,99,88,99),(77,88,97,98),
(67,89,54,78),(34,67,89,54)],
columns=columns, index=index)
9.1.2:
df = pd.DataFrame({
'A':['a1', 'a1', 'a2', 'a2', 'a3', 'a3'],
'B':['b1', 'b2', 'b3', 'b1', 'b2', 'b3'],
'C':['c1', 'c2', 'c3', 'c4', 'c5', 'c6'],
'D':['d1', 'd2', 'd3', 'd4', 'd5', 'd6'],
})
9.1.4:
df = pd.DataFrame({
'A':['a1', 'a1', 'a1', 'a2', 'a2', 'a2'],
'B':['b2', 'b2', 'b1', 'b1', 'b1', 'b1'],
'C':['c1', 'c1', 'c2', 'c2', 'c1', 'c1'],
'D':[1, 2, 3, 4, 5, 6]
})
9.1.5:
df = pd.DataFrame({
'A':['a1', 'a1', 'a1', 'a2', 'a2', 'a2'],
'B':['b2', 'b2', 'b1', 'b1', 'b1', 'b1'],
'C':['c1', 'c1', 'c2', 'c2', 'c1', 'c1'],
'D':[1, 2, 3, 4, 5, 6],
'E':[9, 8, 7, 6, 5, 4]
})
9.2.2:
df = pd.DataFrame({
'A':['a1', 'a1', 'a2', 'a2'],
'B':['b1', 'b2', 'b1', 'b2'],
'C':[1, 2, 3, 4],
'D':[5, 6, 7, 8],
'E':[5, 6, 7, 8]
})
9.3.2:
df = pd.DataFrame({
'A':['a1', 'a1', 'a2', 'a2', 'a1'],
'B':['b2', 'b1', 'b2', 'b2', 'b1'],
'C':[1, 2, 3, 4, 5],
})
9.4.2:
df = pd.DataFrame({
'A':['a1', 'a2', 'a3', 'a4', 'a5'],
'B':['b1', 'b2', 'b3', 'b4', 'b5'],
'C':[1, 2, 3, 4, 5],
})
9.5.2:
df = pd.DataFrame({
'A':['a1', 'a2', 'a3', 'a4', 'a5'],
'B':['b1', 'b2', 'b3', 'b4', 'b5'],
'C':[1, 2, 3, 4, 5],
})
9.6.2:
df = pd.DataFrame({'a': list('adcb'),
'b': list('fehg'),
'a1': range(4),
'b1': range(4,8)})
10.1.1:
df = pd.DataFrame({
'A':['a1', 'a1', 'a2', 'a2'],
'B':['b1', 'b2', None, 'b2'],
'C':[1, 2, 3, 4],
'D':[5, 6, None, 8],
'E':[5, None, 7, 8]
})
10.4.1:
df = pd.DataFrame({
'A': ['x', 'x', 'z'],
'B': ['x', 'x', 'x'],
'C': [1, 1, 2]
})
11.1.1:
df = pd.DataFrame({
'A':['a1', 'a1', 'a2', 'a2'],
'B':['b1', 'b2', None, 'b2'],
'C':[1, 2, 3, 4],
'D':[5, 6, None, 8],
'E':[5, None, 7, 8]
})
17.1.2:
'''
date gmv
2020-11-10 100
2020-11-09 88
2020-11-08 77
2020-11-07 65
2020-11-06 57
2020-11-05 68
2019-11-10 44
2019-11-09 57
2019-11-08 34
2019-11-07 88
2019-11-06 65
'''
17.2.3:
'''
A B C D
a b1 c 2001
a b1 c 2003
a b1 c 2005
a b2 c 2001
a b2 c 2002
a b2 c 2003
a b2 c 2004
'''
17.2.4:
df = pd.DataFrame({
'A':[1,2,4,5,6],
'B':[2,4,6,9, 10],
'C':[2,1,7,2, 1]
})
17.2.5:
df = pd.DataFrame({
'A':[1,2,4,5,-6],
'B':[2,-1,8,2, 1],
'C':[2,-1,8,2, 1]
},
index=['x', 'y', 'z', 'h', 'i']
)
17.2.7:
# 北京各区最后一例确诊日期
'''
地区 最后一例确诊日期
顺义区 2020-02-08
平谷区 Nan
昌平区 2020-08-06
大兴区 2020-06-30
密云区 2020-02-11
石景山区 2020-06-14
海淀区 2020-06-25
东城区 2020-06-16
门头沟区 2020-06-15
房山区 2020-06-15
延庆区 2020-01-23
怀柔区 2020-02-06
朝阳区 2020-06-21
西城区 2020-06-22
通州区 2020-06-20
丰台区 2020-07-05
'''
17.2.8:
'''
节日 开始日期 结束日期
元旦 2020-01-01 2020-01-01
除夕 2020-01-24 2020-01-24
清明节 2020-04-04 2020-04-04
劳动节 2020-05-01 2020-05-01
端午节 2020-06-25 2020-06-25
国庆节 2020-10-01 2020-10-01
'''
17.2.11:
ts = '''
2020-10-28 09:59:44
2020-10-29 10:01:32
2020-10-30 10:04:27
2020-11-02 09:55:43
2020-11-03 10:05:03
2020-11-04 09:44:34
2020-11-05 10:10:32
2020-11-06 10:02:37
'''
17.3.3:
# https://bj.lianjia.com/xiaoqu/1111027382589/
17.3.4:
# https://www.creprice.cn/rank/index.html
# 2020年10月数据
'''
序号 城市名称 平均单价(元/㎡) 环比 同比
1 深圳 78,722 +2.61% +20.44%
2 北京 63,554 -0.82% -1.2%
3 上海 58,831 +0.4% +9.7%
4 厦门 48,169 -0.61% +9.52%
5 广州 38,351 -1.64% +13.79%
6 三亚 35,981 -0.19% -3.88%
7 南京 33,301 +1.59% +8.02%
8 杭州 32,181 +3.11% +4.61%
9 天津 26,397 +2.34% +3.5%
10 福州 25,665 -1.05% -4.1%
11 宁波 24,306 -1.43% +13.13%
12 珠海 23,293 -1.42% -0.49%
13 温州 23,009 +3.01% +7.01%
14 苏州 22,540 -1.35% -2.8%
15 青岛 21,490 -1.7% +1.95%
16 东莞 21,391 +6% +34.44%
17 丽水 19,775 +2.3% -1.78%
18 武汉 19,021 -0.18% +4.51%
19 成都 17,443 -2.41% +11.84%
20 无锡 17,131 -0.27% +12.5%
'''
17.3.5:
data = '''
对话开始 >>
李庆辉 2020-05-15 12:33:50
你好,可以退货吗
客服999 2020-05-15 12:33:55 >>
工号999很高兴为您服务~。
客服999 2020-05-15 12:33:53
您好
客服999 2020-05-15 12:34:04
您可以自己操作申请取消订单的。
李庆辉 2020-05-15 12:34:04
退款多久到账呢?
客服999 2020-05-15 12:34:28
一般1-7个工作日
李庆辉 2020-05-15 12:35:01
OMG! 好久呢
李庆辉 2020-05-15 12:40:55
能不能快点
客服999 2020-05-15 12:42:23
一般情况下很快就会到账的。
李庆辉 2020-05-15 12:43:04
OMG! 好久呢
客服999 2020-05-15 12:44:01
一般情况下很快就会到账的。
对话结束 >>
长时间未回复,对话结束
'''
# 注:会话内容前上一个制表符,直接复制可能是空格,可以进行替换或者调整代码
17.3.7:
css = '''
<style>
table {
border: 1px solid #aac1de;
border-collapse: collapse;
border-spacing: 0;
color: black;
text-align: center;
font-size: 11px;
min-width: 100%;
}
thead {
border-bottom: 1px solid #aac1de;
vertical-align: bottom;
background-color: #eff5fb;
}
tr {
border: 1px dotted #aac1de;
}
td {
vertical-align: middle;
padding: 0.5em;
line-height: normal;
white-space: normal;
max-width: 150px;
}
th {
font-weight: bold;
vertical-align: middle;
padding: 0.5em;
line-height: normal;
white-space: normal;
max-width: 150px;
text-align: center;
}
</style>
'''
其他内容如有需要请联系作者(在书籍主页有联系方式)。
更新时间:2024-06-16 17:17:57 标签:pandas 数据集