说明
数据产品经理教程 正在编写中,欢迎大家加微信 gairuo123 (备注:数据产品教程) 提供意见、建议、纠错、催更。应大家要求,作者开办数据产品和数据分析培训班,详情 数据产品经理培训 / 数据分析培训。
在大数据环境下,传统计算密集型应用逐渐变为数据密集型,存储访问成为应用性能提升的瓶颈。为缓解大数据应用不断增长的存储压力,并行和分布式存储系统在大数据环境下得到了广泛应用。
本文介绍大数据的存储模式和演进过程,以及一些常用的大数据存储模式。
在没有大数据之前,所在的业务系统都存储在数据库里,超大的数据会选择 Oracle 之类大型商业数据库。比如在银行、电信行业,Oracle 以强大的支撑能力支持着数据的存储和业务的计算。
Oracle 多以集中式架构为主,最大特点就是将所有的数据都集中在一个数据库中,依靠大型高端设备来提供高处理能力和扩展性。集中式数据库的扩展性主要采用向上扩展的方式,通过增加CPU,内存,磁盘等方式提高处理能力。这种集中式数据库的架构,使得数据库成为了整个系统的瓶颈,已经越来越不适应海量数据对计算能力的巨大需求。同时传统数据库架构对高端设备的依赖,无疑将直接导致系统成本的大幅度增加,甚至可能会导致系统被主机和硬件厂商所“绑架”,不得不持续增加投入成本。
在大数据环境下,传统计算密集型应用逐渐变为数据密集型,存储访问成为应用性能提升的瓶颈。为缓解大数据应用不断增长的存储压力,并行和分布式存储系统在大数据环境下得到了广泛应用。然而,随着应用和技术的发展,大数据存储系统面临着应用异构、设备异构、I/O路径复杂等挑战,使得传统大数据存储相关算法和数据结构不再高效。
接下来,将介绍几个主流的数据存储方法。
数据库 (Database)是按照 数据结构来组织、 存储和管理数据的建立在计算机存储设备上的仓库。 简单来说是本身可视为 电子化的 文件柜 ——存储电子 文件的处所,用户可以对文件中的数据进行新增、截取、更新、删除等操作。
数据集市(英语:Data Mart),是数据仓库(Data Warehouse)的一种特殊形式。正如数据仓库,数据集市也包含对操作数据的快照,便于用户基于历史趋势与经验进行战略决策。两者关键的区别在于数据集市的创建是在有具体的、预先定义好了的对被选数据分组并配置的需求基础之上的。配置数据集市强调对相关信息的易连接性。
数据仓库(英语:data warehouse,也称为企业数据仓库)是用于报告和数据分析的系统,被认为是商业智能的核心组件。数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起,用于为整个企业的员工创建分析报告。
存储在仓库中的数据从运行系统(例如营销或销售)上传。这些数据可能会通过一个ODS数据库,并且可能需要进行额外操作的数据清理,以确保数据质量,然后才能在数据仓库中用于报告。
典型的基于提取、转换、加载(ETL)的数据仓库使用分级、数据集成和访问层来存放其关键功能。分级层或分级数据库存储从每个不同的源数据系统中提取的原始数据。集成层通过转换来自分级层的数据,将不同的数据集合在一起,通常将转换后的数据存储在ODS数据库中。然后将集成的数据转移到另一个数据库(通常称为数据仓库数据库),在这个数据库中,数据被分为层次组(通常称为维度),并被分成事实和聚合事实。事实和维度的组合有时被称为星型模式。访问层帮助用户检索数据。
数据的主要来源被清理、转换、分类,并提供给管理人员和其他商业专业人员用于数据挖掘、在线分析处理、市场研究和决策支持。然而,检索和分析数据、提取、转换和装载数据以及管理数据字典的方法也被认为是数据仓库系统的基本组成部分。许多数据仓库的文献都使用了这个更广泛的语境。因此,数据仓库的扩展定义包括商业智能工具、提取、转换和加载数据到存储库的工具,以及管理和检索元数据的工具。
数据湖(英语:data Lake),是指使用大型二进制对象或文件这样的自然格式储存数据的系统。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML, JSON),非结构化数据 (电子邮件、文件、PDF)和 二进制数据(图像、音频、视频)。
储存数据湖的方式包括 Apache Hadoop 分布式文件系统, Azure 数据湖 或 亚马逊云 Lake Formation's云存储服务,以及诸如 Alluxio 虚拟数据湖之类的解决方案。一个数据沼泽 是一个劣化的数据湖,用户无法访问,或是没什么价值。
阿里云的定义:数据湖是统一存储池,可对接多种数据输入方式,您可以存储任意规模的结构化、半结构化、非结构化数据。数据湖可无缝对接多种计算分析平台,直接进行数据处理与分析,打破孤岛,洞察业务价值。同时,数据湖提供冷热分层转换能力,覆盖数据全生命周期。
更新时间:2021-03-26 23:16:50 标签:大数据 存储