看过来
《pandas 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gr99123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
散点图(Scatter graph)也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。
通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、不相关、线性相关、指数相关等,表现在散点图上的大致分布如下图所示。那些离点集群较远的点我们称为离群点或者异常点。
散点图经常与回归线(就是最准确地贯穿所有点的线)结合使用,归纳分析现有数据以进行预测分析。
可以使用 DataFrame.plot.scatter() 方法绘制散点图。 散点图要求 x 和 y 轴为数字列。这些可以通过 x 和 y 关键字指定。
df = pd.DataFrame(np.random.rand(50, 4),
columns=['a', 'b', 'c', 'd'])
df.plot.scatter(x='a', y='b')
要在单个轴上绘制多个列组,请重复指定目标轴的绘图方法。 建议指定颜色和标签关键字以区分每个组。
ax = df.plot.scatter(x='a', y='b', color='DarkBlue', label='Group 1');
df.plot.scatter(x='c', y='d', color='DarkGreen', label='Group 2', ax=ax);
c 参数可以指定点的颜色。
df.plot.scatter(x='a', y='b', c='c', s=50)
c 的取值可以是:
df.plot.scatter(x='a', y='b', c=['green','yellow']*25, s=50)
df.plot.scatter(x='a', y='b', c='DarkBlue')
df.plot.scatter(x='a', y='b', c='c', colormap='viridis')
colorbar=True 在当前坐标区或图的右侧显示一个垂直颜色栏。颜色栏显示当前颜色图并指示数据值到颜色图的映射。
df.plot.scatter(x='a', y='b', c='DarkBlue', colorbar=True)
s 可以指定点的大小:
df.plot.scatter(x='a', y='b', s=df['c'] * 200)
df.plot.scatter(x='a', y='b', s=50) # 同样大小
可以参考官方文档了解更多参数。
更新时间:2020-06-24 09:06:21 标签:pandas 散点图