看过来
《pandas 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gr99123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
Zeppelin 是一个开源的交互式数据查询平台,它的 Spark SQL解释器和其他Spark解释器(PySpark<Python语言>、SparkR<R语言>以及Spark解释器<scale语言>)共享SparkContext和SparkSession。这意味着使用其他Spark解释器注册的表可以使用Spark SQL解释器进行访问。
在章节框开头输入以下代码进行声明即可使用 Python 的强大功能:
%python
# 或者
%python.ipython
对数据查询结果进行处理:
Zeppline 支持上下文数据的联动处理,以 Hive 解析器为例,在解析器的声明中增加 saveAs 及变量名,在查询结束后会将产生的数据集赋于此变量名:
%hive(saveAs=bank)
在其他的章节框的 Python 解析中就可以使用以上 bank 为变量名的数据:
%python.ipython
df = z.getAsDataFrame('bank')
df
上例中,就将查询的结果集构造为 pandas 的 DataFrame 结构并将数据显示出来,DataFrame 提供强大的数据处理和分析能力,关于 Pandas 的使用可通过以下教程进行学习:https://gairuo.com/p/pandas-tutorial
使用 pyecharts 进行可视化:
import pandas as pd
import pyecharts as pe
df = z.getAsDataFrame('bank')
# 其他:"jupyter_notebook", "nteract", "zeppelin"
pe.globals.CurrentConfig.NOTEBOOK_TYPE = 'zeppelin'
# 对应图形加载 JS 文件
pe.charts.Bar().load_javascript()
(
pe.charts.Bar(dict(width='800px', hight='200px', theme='light'))
.add_xaxis([*df.page_name])
.add_yaxis('device_times', [*df.device_times])
.add_yaxis('device_qty', [*df.device_qty])
.reversal_axis()
.render_notebook() # 网页展示图表
)
此外,还能支持更多其他Python的可视化库,比如 Bokeh, HvPlot, Pandas,Seaborn 等等。
更新时间:2021-11-12 21:26:26 标签:python zeppelin pyecharts 可视化