京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | 大喵
来源 | 物联网空间站
什么是数据湖,它是什么工作原理?它又是如何作用于大数据分析的?它们的驱动因素和优缺点又是什么?
一般情况下,要使大数据项目成功,至少需要两件事:其一,知道需要什么可操作的数据;其二,获得正确的数据来进行分析和利用,以实现预期目标。
然而,有很多不同形式的数据有着形色各异的来源,并且,这种数据量,或者多样性等会随着时间的推移而呈指数型增长。
数据湖是在快速增长和日益非结构化的大数据领域中结束数据孤岛的一种方式。
在未来几年,工业物联网将快速增长。这种增长,会出现更多或更优质的数据:数据在整个物联网体系中的有着举足轻重的地位,其作用是获得更精确的洞察力,推动相关行动和运营,以达成期望目标。为了进行有目的大数据分析,为智能应用程序提供智能数据,也就意味着不可避免地需使用人工智能来分析所有这些数据。
数据湖是将所有不同种类数据收集、存储、分析并转化为洞察力和决策的地方,包括结构化、半结构化和非结构化数据。
传统上,数据存储于整个组织(内部数据)及其运作的生态系统(外部数据)中。这是一个挑战:如果数据在云内云外无处不在,那就不能将有效的数据组合在一个大数据项目中。
作为一个概念,数据湖是由Pentaho的首席技术官James Dixon推广的,并将其视为是比数据集或数据中心更适合于大数据的存储库。
以下是Dixon于2011年在博客上对数据湖的定义:“如果将数据中心视为商店的经过清洁、包装和结构化的瓶装水,那数据湖便是一个更自然的大水体。数据湖中的内容从源头流入湖中,用户可以在湖中进行检查、潜水或采集样本“。
数据湖是具有分析和行动目的存储库。
在本质上,大数据湖是一个存储库,包含大量原始的、原生格式的数据。
传统的数据管理方法不适合处理大数据或进行大数据分析。通过大数据分析,可找到不同数据集之间的关联,这些数据集需要合并才能实现我们的业务目标。如果这些数据集位于完全不同的系统中,那几乎是不可能实现的。
比如,我们可以将来自一个来源的客户数据与其他来源的数据,甚至似乎不相关的数据结合起来(例如,交通数据、天气数据等似乎与我们的业务无关的客户数据)。并采取相应的措施,以提高客户体验,提出新的服务,或提高销售额。
自下而上的数据分析:摄入数据以填满数据湖
数据分析和数据湖有什么关系?大数据湖是分析的两种信息管理方法之一。
第一个是自上而下的数据仓库,第二个是自下而上的数据湖。为了让他更直观,让我们想象一个真正的湖的形象。湖不会平白无故的被填满,通常有河流或较小的溪流给它带来水。
数据湖是专为大数据分析而设计的,以解决大数据中的数据孤岛问题。
在数据湖中也会发生同样的情况。这也被称为数据的摄入,不论其来源或结构如何。通过上述数据分析,我们需收集实现目标所需的所有数据。
这些“数据流”有几种格式:结构化数据(简单地说,来自传统关系数据库甚至电子表格的数据:行和列), 非结构化数据 (社交、视频、电子邮件、短信……),来自各种日志的数据(如网志、点击流分析……)、机器对机、物联网和传感器数据,您可以将其命名为日志和XML,也称为半结构化数据。
它们还涉及从全局的角度来看各种类型的数据:客户数据、业务应用程序的数据、销售数据等(通过API输入数据湖)。显然,我们将在大多数时候需利用外部数据以实现我们的目标。
数据湖的使用:存储、分析和可视化
所有这些数据,只要它有意义,就会存储在数据湖中,同时它也会通过应用程序接口协议API,或从各种应用程序和系统中通过批处理过程不断输入数据。
存储维度是第二部分(摄入是第一部分)。在大数据湖中,这实际上意味着没有数据孤岛。因此,这意味着我们即将开始一项有趣的工作:大数据分析。
要知道,我们合并的数据集有时看起来是无关的,例如,我们可以使用人工智能来检测购买行为和天气状况之间的模式,来自一个来源的客户数据和另一个来源的客户数据,交通数据和污染数据之间的模式,这种模式不胜枚举。我们能用这些模式做什么?正如你所能想象的那样,在现实生活中,大量的大数据使用示例表明,这就是你的业务或其他目标发挥作用的地方。
显然,光是分析是不够的。你还需对所分析的东西进行想象、理解和行动。正如EMC关于数据湖如何工作的信息图表所示:流出的水是经过分析的数据,然后会采取相关的行动,进而产生商业洞察力。
为什么是数据湖?
如前所述,传统上有两种分析的信息管理方法。为什么数据湖(自下而上的方法)在数据分析中很受欢迎?
原因有很多。首先,重要的是要理解我们对数据湖的看法并不完全正确,它不仅仅是一些自下而上的大混乱数据沼泽。其中涉及到相当多的技术,协议等等。要妥善利用溪流进入湖中的图像:在水真正进入湖中之前,就已经安装了过滤器。
历史遗留数据体系结构的挑战
数据湖更受欢迎的一部分原因是历史原因。
传统的数据系统并不是那么开放,如果想要集成、添加和混合数据以进行分析和操作的话,也不是很容易。传统数据架构的分析也不那么精确,成本也不低(需要额外的工具,取决于软件)。此外,它们的构建没有考虑到我们通常在大数据中的所有新的和正在出现的(外部)数据源。
更快的大数据分析能力
使用数据湖的另一个重要原因是大数据分析可以更快地完成。
事实上数据湖是为大数据分析而设计的,更重要的是,它是为基于实时分析的实时操作而设计的。数据湖适合以一致的方式利用大量数据,并使用算法驱动实时分析。
混合和汇聚数据:一个数据湖中的结构化和非结构化数据
数据湖还有一个优点是,可以获取、融合、集成和聚合所有类型的数据,而不论其来源和格式如何。
Hadoop是数据湖体系结构之一,它还可以处理主要数据块之上的结构化数据,也包括来自社会数据、日志等非结构化数据。顺便提一句:非结构化数据是所有数据中增长最快的形式(即使结构化数据也在不断增长),预计将达到所有数据的90%。
将数据分析移到数据湖和边缘
还有一个事实是,来回移动大型数据集并不是明智的做法。
有了大数据湖,应用程序会更接近于数据的所在。从这个意义上讲,你可以看到应用程序移动到边缘,而不是存储库中心,即以更快的速度移动并减轻网络等方面的负担。这是雾计算的精髓所在,它是工业4.0和工业互联网背景下,边缘计算在数据分析领域的最新应用。
数据湖的灵活性随用户的需要增长而扩展
数据湖具有高度的可伸缩性和灵活性。这不需要过多的阐述,系统和进程可以很容易地进行缩放,以处理越来越多的数据。
节约企业数据仓库资源
最后一个优点是,正如上面来自PwC的说明所示,数据湖可以作为数据仓库(EDW)的中转区域。
然后,它仅用于将相关数据传递到仓库,从而节省EDW资源。
数据湖的挑战、风险和演变
大数据湖有诸多的好处,同时,也有风险和挑战需应对。
如果没有正确的战略设计,并考虑到必要的目标,数据湖可能成为数据沼泽。这也是为什么企业从非常传统的数据湖方法转向面向目标和业务导向的方法的原因。
显然,应该从业务驱动和战略方针着手来处理数据湖。然而,传统上,这些数据往往是从不断上升的数据量角度和最终所有数据都具有潜在价值的观点来看待的。
虽然这个价值确实是有潜力的,但相当多的公司表现得像数据囤积者。此外,公司是否需要一个数据湖,如果需要,是否可以从数据湖中获得价值。
Gartner2015年的一份报告中显示,一些公司的Hadoop((数据湖架构的领先者)是过犹不及的,技术上的差距是阻碍发展的主要原因。
大数据湖的规模
由于大数据量和大数据使用量不断增长,大数据规划的广度、深度和包容性都在增加,因此数据湖的大小显然也在不断增长。
一篇Dimensional Research2018年大数据趋势和挑战报告的博客文章指出,平均数据湖大小超过100太字节的组织比例从2017年的36%增长到2018年的44%( 一年内增加22%)。这种趋势只会持续下去,而且是大数据处理向云转变的众多驱动因素之一。
然而,难题依然存在:如何从所有这些数据中获取价值。决策和行动是市场如何发展的关键驱动力。
确保数据湖不会变成数据沼泽
让我们更深入地研究这些数据沼泽。如前所述,在数据湖的早期,重点是大数据的容量方面,许多企业实际上使用数据湖作为转储数据的地方。
这导致了数据沼泽的现象,需采取适当的方法保持数据湖的清洁。
直到今天,仍然听到一些组织提出常规性的问题,比如:“我应该用一个数据湖来替换我的数据中心吗?”。数据湖经常与数据中心相比较,虽然理解这些差异很重要,但问题是使用什么,什么时候使用并不是重点,正如咨询师所言,你真正需要的是什么,要视情况而定。
我们的旨在通过数据仓库、数据分析和商业智能环境来解决它们所适应的商业智能环境的问题。
· 数据可实现什么;
· 如何从这些数据中获得更多的价值;
· 通过高级分析将数据货币化的用例有哪些;
· 我们需要什么技能;
· 我们的业务是如何由数据驱动的;
· 我们今天的处境(包括技能和文化)
· 在法规范围内,我们需要考虑到哪些有关敏感数据的问题;
· .........
当数据湖的数据情况变得清晰无误时,就不难确保它不会变成一个数据沼泽。这种讨论已经进行了很长时间,数据湖需要更多的策略和关注。
改变数据湖的要素:云、分析、价值和AI/ML
当然,数据湖也不像以前所触及的那样了。在早期,数据湖本质上是添加Hadoop,并保留所有现有的内容,而现在,我们可以更多地使用云中的数据。
最初,一个数据湖是给那些有技能和能力的用户使用:找到他们想要的数据,然后能够使用模式在读技术来处理这个问题。幸运的是,SQL正在进入数据湖,我们开始学习如何对其中的不同岛屿建模,让用户直接访问数据湖中的数据。
云的增长速度和它在业务中总体增长速度一样快。很明显,数据湖的未来意味着云,尽管某些行业也会有例外,其中包括监管问题,以及传统上对公众云采取更为谨慎的做法。
一些企业显然也从过去所犯的错误中吸取了教训,最后,随着人工智能和机器学习变得更加重要,重点更多的放在结果和价值上,以及对近实时分析、高级分析和可视化的需求,人们更加关注结果和价值。
我们还看到数据湖向商业智能解决方案转变。简单地总结一下:数据湖景观发展迅速,其本质仍然是将数据转化为价值和更好地实现这一目标的手段,技术前沿的大量趋势和经验教训,使得我们很难将数据湖的过去与现在进行比较,更不用说未来了。许多组织表示,它们计划部署一个数据湖,并转向云,这一未来看上去相当光明。
要知道,当数据湖变得流行时,大数据仍然是一个热门词,至少大数据已经变得无所不在了。大数据就是数据,问题是如何处理它。总的来说,数据的成熟度已经提高,新一代的专家知道,大数据分析是获得价值的关键所在,你对待数据的方式与传统数据仓库时代不同-关于利用大数据的思维方式和文化已经在酝酿。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27对数据分析从业者和学生而言,表结构数据是最基础也最核心的分析载体——CRM系统的用户表、门店的销售明细表、仓库的库存表,都 ...
2025-11-27在业务数据可视化中,热力图(Heat Map)是传递“数据密度与分布特征”的核心工具——它通过颜色深浅直观呈现数据值的高低,让“ ...
2025-11-26在企业数字化转型中,业务数据分析师是连接数据与决策的核心纽带。但“数据分析师”并非单一角色,从初级到高级,其职责边界、能 ...
2025-11-26