Hive: Hadoop 数据仓库工具

说明

数据产品经理教程正在编写中，欢迎大家加微信 gr99123 （备注：数据产品教程）提供意见、建议、纠错、催更。应大家要求，作者开办数据产品和数据分析培训班，详情数据产品经理培训 / 数据分析培训。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。
其本质是将SQL转换为MapReduce/Spark的任务进行运算，底层由HDFS来提供数据的存储。

简介

Apache Hive ™ 数据仓库软件有助于使用 SQL 读取、写入和管理分布式存储中的大型数据集。Hive 让数据结构映射到已经存储的数据上，提供了一个命令行工具和 JDBC 驱动程序来将用户连接到 Hive。

Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼，查询和分析。Apache Hive起初由Facebook开发，目前也有其他公司使用和开发Apache Hive，例如Netflix等。亚马逊公司也开发了一个定制版本的Apache Hive，亚马逊网络服务包中的Amazon Elastic MapReduce包含了该定制版本。

Hive 是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

架构

基本组成:

Hive架构

用户接口：包括CLI、JDBC/ODBC、WebGUI。其中，CLI(command line interface)为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive。
元数据存储：通常是存储在关系数据库如mysql/derby中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
解释器、编译器、优化器、执行器:完成HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS 中，并在随后有MapReduce 调用执行。

特点

Apache Hive 支持分析存储在 Hadoop 的 HDFS 和兼容文件系统（如 Amazon S3 文件系统和 Alluxio）中的大型数据集。它提供了一种名为 HiveQL 的类似 SQL 的查询语言，具有读取模式，并将查询透明地转换为 MapReduce、Apache Tez 和 Spark 作业。所有三个执行引擎都可以在 Hadoop 的资源协商器 YARN（Yet Another Resource Negotiator）中运行。为了加速查询，它提供了索引，但在 3.0 版中删除了此功能。 Hive 的其他功能包括：

不同的存储类型，例如纯文本、RCFile、HBase、ORC 等。
关系数据库管理系统中的元数据存储，显着减少查询执行期间执行语义检查的时间。
使用 DEFLATE、BWT、snappy 等算法对存储在 Hadoop 生态系统中的压缩数据进行操作。
内置用户定义函数 (UDF)，用于操作日期、字符串和其他数据挖掘工具。 Hive 支持扩展 UDF 集以处理内置函数不支持的用例。
类似 SQL 的查询 (HiveQL)，隐式转换为 MapReduce 或 Tez 或 Spark 作业。
默认情况下，Hive 将元数据存储在嵌入式 Apache Derby 数据库中，并且可以选择使用其他客户端/服务器数据库（如 MySQL）。

Hive 支持的前四种文件格式是纯文本、序列文件、优化行列 (ORC) 格式和 RCFile。 Apache Parquet 可以通过插件在 0.10 之后的版本中读取，并且本机从 0.13 开始。

参考

https://hive.apache.org
https://cwiki.apache.org/confluence/display/Hive/Home
https://mp.weixin.qq.com/s/5Kk7DaSLSsL03Ifz8w-YyQ

< Impala 大规模并行SQL查询引擎大数据平台及框架 HBase 分布式可伸缩大数据存储 >

更新时间：2022-06-29 10:19:49 标签：hive 大数据查询数据仓库