登录
首页大数据时代数据湖是什么?它与数据仓库一样吗?
数据湖是什么?它与数据仓库一样吗?
2020-07-07
收藏

数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。

数据湖特征

1、 一个可以存储大数据的并行系统

2、可以在不需要另外移动数据的情况下进行数据计算

目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。但未来总会有新的技术出现,因此我们要区分出Hadoop数据湖的不同点。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。

数据湖数据仓库的区别:

1、数据湖:能处理所有类型的数据,如结构化数据,非结构化数据、半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。

数据仓库:只能对结构化数据进行处理,而且这些数据必须与数据仓库事先定义的模型吻合。

2、数据湖:拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用。

数据仓库:处理结构化数据,将他们或者转换为多维数据,或者转换为报表,以满足后续的高级报表以及数据分析需求。

3、数据湖数据湖通常包含更多的相关信息,这些信息被访问的概率很高,并且能够为企业挖掘新的运营需求。

数据仓库数据仓库通常用于存储和维护长期数据,因此数据可以按需访问。

数据分析咨询请扫描二维码

客服在线
立即咨询