说明
数据产品经理教程 正在编写中,欢迎大家加微信 gairuo123 (备注:数据产品教程) 提供意见、建议、纠错、催更。应大家要求,作者开办数据产品和数据分析培训班,详情 数据产品经理培训 / 数据分析培训。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供数据的存储。
Apache Hive ™ 数据仓库软件有助于使用 SQL 读取、写入和管理分布式存储中的大型数据集。Hive 让数据结构映射到已经存储的数据上,提供了一个命令行工具和 JDBC 驱动程序来将用户连接到 Hive。
Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。Apache Hive起初由Facebook开发,目前也有其他公司使用和开发Apache Hive,例如Netflix等。亚马逊公司也开发了一个定制版本的Apache Hive,亚马逊网络服务包中的Amazon Elastic MapReduce包含了该定制版本。
Hive 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
基本组成:
Apache Hive 支持分析存储在 Hadoop 的 HDFS 和兼容文件系统(如 Amazon S3 文件系统和 Alluxio)中的大型数据集。它提供了一种名为 HiveQL 的类似 SQL 的查询语言,具有读取模式,并将查询透明地转换为 MapReduce、Apache Tez 和 Spark 作业。所有三个执行引擎都可以在 Hadoop 的资源协商器 YARN(Yet Another Resource Negotiator)中运行。为了加速查询,它提供了索引,但在 3.0 版中删除了此功能。 Hive 的其他功能包括:
Hive 支持的前四种文件格式是纯文本、序列文件、优化行列 (ORC) 格式和 RCFile。 Apache Parquet 可以通过插件在 0.10 之后的版本中读取,并且本机从 0.13 开始。
更新时间:2022-06-29 10:19:49 标签:hive 大数据 查询 数据仓库