京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | 大喵
来源 | 物联网空间站
什么是数据湖,它是什么工作原理?它又是如何作用于大数据分析的?它们的驱动因素和优缺点又是什么?
一般情况下,要使大数据项目成功,至少需要两件事:其一,知道需要什么可操作的数据;其二,获得正确的数据来进行分析和利用,以实现预期目标。
然而,有很多不同形式的数据有着形色各异的来源,并且,这种数据量,或者多样性等会随着时间的推移而呈指数型增长。
数据湖是在快速增长和日益非结构化的大数据领域中结束数据孤岛的一种方式。
在未来几年,工业物联网将快速增长。这种增长,会出现更多或更优质的数据:数据在整个物联网体系中的有着举足轻重的地位,其作用是获得更精确的洞察力,推动相关行动和运营,以达成期望目标。为了进行有目的大数据分析,为智能应用程序提供智能数据,也就意味着不可避免地需使用人工智能来分析所有这些数据。
数据湖是将所有不同种类数据收集、存储、分析并转化为洞察力和决策的地方,包括结构化、半结构化和非结构化数据。
传统上,数据存储于整个组织(内部数据)及其运作的生态系统(外部数据)中。这是一个挑战:如果数据在云内云外无处不在,那就不能将有效的数据组合在一个大数据项目中。
作为一个概念,数据湖是由Pentaho的首席技术官James Dixon推广的,并将其视为是比数据集或数据中心更适合于大数据的存储库。
以下是Dixon于2011年在博客上对数据湖的定义:“如果将数据中心视为商店的经过清洁、包装和结构化的瓶装水,那数据湖便是一个更自然的大水体。数据湖中的内容从源头流入湖中,用户可以在湖中进行检查、潜水或采集样本“。
数据湖是具有分析和行动目的存储库。
在本质上,大数据湖是一个存储库,包含大量原始的、原生格式的数据。
传统的数据管理方法不适合处理大数据或进行大数据分析。通过大数据分析,可找到不同数据集之间的关联,这些数据集需要合并才能实现我们的业务目标。如果这些数据集位于完全不同的系统中,那几乎是不可能实现的。
比如,我们可以将来自一个来源的客户数据与其他来源的数据,甚至似乎不相关的数据结合起来(例如,交通数据、天气数据等似乎与我们的业务无关的客户数据)。并采取相应的措施,以提高客户体验,提出新的服务,或提高销售额。
自下而上的数据分析:摄入数据以填满数据湖
数据分析和数据湖有什么关系?大数据湖是分析的两种信息管理方法之一。
第一个是自上而下的数据仓库,第二个是自下而上的数据湖。为了让他更直观,让我们想象一个真正的湖的形象。湖不会平白无故的被填满,通常有河流或较小的溪流给它带来水。
数据湖是专为大数据分析而设计的,以解决大数据中的数据孤岛问题。
在数据湖中也会发生同样的情况。这也被称为数据的摄入,不论其来源或结构如何。通过上述数据分析,我们需收集实现目标所需的所有数据。
这些“数据流”有几种格式:结构化数据(简单地说,来自传统关系数据库甚至电子表格的数据:行和列), 非结构化数据 (社交、视频、电子邮件、短信……),来自各种日志的数据(如网志、点击流分析……)、机器对机、物联网和传感器数据,您可以将其命名为日志和XML,也称为半结构化数据。
它们还涉及从全局的角度来看各种类型的数据:客户数据、业务应用程序的数据、销售数据等(通过API输入数据湖)。显然,我们将在大多数时候需利用外部数据以实现我们的目标。
数据湖的使用:存储、分析和可视化
所有这些数据,只要它有意义,就会存储在数据湖中,同时它也会通过应用程序接口协议API,或从各种应用程序和系统中通过批处理过程不断输入数据。
存储维度是第二部分(摄入是第一部分)。在大数据湖中,这实际上意味着没有数据孤岛。因此,这意味着我们即将开始一项有趣的工作:大数据分析。
要知道,我们合并的数据集有时看起来是无关的,例如,我们可以使用人工智能来检测购买行为和天气状况之间的模式,来自一个来源的客户数据和另一个来源的客户数据,交通数据和污染数据之间的模式,这种模式不胜枚举。我们能用这些模式做什么?正如你所能想象的那样,在现实生活中,大量的大数据使用示例表明,这就是你的业务或其他目标发挥作用的地方。
显然,光是分析是不够的。你还需对所分析的东西进行想象、理解和行动。正如EMC关于数据湖如何工作的信息图表所示:流出的水是经过分析的数据,然后会采取相关的行动,进而产生商业洞察力。
为什么是数据湖?
如前所述,传统上有两种分析的信息管理方法。为什么数据湖(自下而上的方法)在数据分析中很受欢迎?
原因有很多。首先,重要的是要理解我们对数据湖的看法并不完全正确,它不仅仅是一些自下而上的大混乱数据沼泽。其中涉及到相当多的技术,协议等等。要妥善利用溪流进入湖中的图像:在水真正进入湖中之前,就已经安装了过滤器。
历史遗留数据体系结构的挑战
数据湖更受欢迎的一部分原因是历史原因。
传统的数据系统并不是那么开放,如果想要集成、添加和混合数据以进行分析和操作的话,也不是很容易。传统数据架构的分析也不那么精确,成本也不低(需要额外的工具,取决于软件)。此外,它们的构建没有考虑到我们通常在大数据中的所有新的和正在出现的(外部)数据源。
更快的大数据分析能力
使用数据湖的另一个重要原因是大数据分析可以更快地完成。
事实上数据湖是为大数据分析而设计的,更重要的是,它是为基于实时分析的实时操作而设计的。数据湖适合以一致的方式利用大量数据,并使用算法驱动实时分析。
混合和汇聚数据:一个数据湖中的结构化和非结构化数据
数据湖还有一个优点是,可以获取、融合、集成和聚合所有类型的数据,而不论其来源和格式如何。
Hadoop是数据湖体系结构之一,它还可以处理主要数据块之上的结构化数据,也包括来自社会数据、日志等非结构化数据。顺便提一句:非结构化数据是所有数据中增长最快的形式(即使结构化数据也在不断增长),预计将达到所有数据的90%。
将数据分析移到数据湖和边缘
还有一个事实是,来回移动大型数据集并不是明智的做法。
有了大数据湖,应用程序会更接近于数据的所在。从这个意义上讲,你可以看到应用程序移动到边缘,而不是存储库中心,即以更快的速度移动并减轻网络等方面的负担。这是雾计算的精髓所在,它是工业4.0和工业互联网背景下,边缘计算在数据分析领域的最新应用。
数据湖的灵活性随用户的需要增长而扩展
数据湖具有高度的可伸缩性和灵活性。这不需要过多的阐述,系统和进程可以很容易地进行缩放,以处理越来越多的数据。
节约企业数据仓库资源
最后一个优点是,正如上面来自PwC的说明所示,数据湖可以作为数据仓库(EDW)的中转区域。
然后,它仅用于将相关数据传递到仓库,从而节省EDW资源。
数据湖的挑战、风险和演变
大数据湖有诸多的好处,同时,也有风险和挑战需应对。
如果没有正确的战略设计,并考虑到必要的目标,数据湖可能成为数据沼泽。这也是为什么企业从非常传统的数据湖方法转向面向目标和业务导向的方法的原因。
显然,应该从业务驱动和战略方针着手来处理数据湖。然而,传统上,这些数据往往是从不断上升的数据量角度和最终所有数据都具有潜在价值的观点来看待的。
虽然这个价值确实是有潜力的,但相当多的公司表现得像数据囤积者。此外,公司是否需要一个数据湖,如果需要,是否可以从数据湖中获得价值。
Gartner2015年的一份报告中显示,一些公司的Hadoop((数据湖架构的领先者)是过犹不及的,技术上的差距是阻碍发展的主要原因。
大数据湖的规模
由于大数据量和大数据使用量不断增长,大数据规划的广度、深度和包容性都在增加,因此数据湖的大小显然也在不断增长。
一篇Dimensional Research2018年大数据趋势和挑战报告的博客文章指出,平均数据湖大小超过100太字节的组织比例从2017年的36%增长到2018年的44%( 一年内增加22%)。这种趋势只会持续下去,而且是大数据处理向云转变的众多驱动因素之一。
然而,难题依然存在:如何从所有这些数据中获取价值。决策和行动是市场如何发展的关键驱动力。
确保数据湖不会变成数据沼泽
让我们更深入地研究这些数据沼泽。如前所述,在数据湖的早期,重点是大数据的容量方面,许多企业实际上使用数据湖作为转储数据的地方。
这导致了数据沼泽的现象,需采取适当的方法保持数据湖的清洁。
直到今天,仍然听到一些组织提出常规性的问题,比如:“我应该用一个数据湖来替换我的数据中心吗?”。数据湖经常与数据中心相比较,虽然理解这些差异很重要,但问题是使用什么,什么时候使用并不是重点,正如咨询师所言,你真正需要的是什么,要视情况而定。
我们的旨在通过数据仓库、数据分析和商业智能环境来解决它们所适应的商业智能环境的问题。
· 数据可实现什么;
· 如何从这些数据中获得更多的价值;
· 通过高级分析将数据货币化的用例有哪些;
· 我们需要什么技能;
· 我们的业务是如何由数据驱动的;
· 我们今天的处境(包括技能和文化)
· 在法规范围内,我们需要考虑到哪些有关敏感数据的问题;
· .........
当数据湖的数据情况变得清晰无误时,就不难确保它不会变成一个数据沼泽。这种讨论已经进行了很长时间,数据湖需要更多的策略和关注。
改变数据湖的要素:云、分析、价值和AI/ML
当然,数据湖也不像以前所触及的那样了。在早期,数据湖本质上是添加Hadoop,并保留所有现有的内容,而现在,我们可以更多地使用云中的数据。
最初,一个数据湖是给那些有技能和能力的用户使用:找到他们想要的数据,然后能够使用模式在读技术来处理这个问题。幸运的是,SQL正在进入数据湖,我们开始学习如何对其中的不同岛屿建模,让用户直接访问数据湖中的数据。
云的增长速度和它在业务中总体增长速度一样快。很明显,数据湖的未来意味着云,尽管某些行业也会有例外,其中包括监管问题,以及传统上对公众云采取更为谨慎的做法。
一些企业显然也从过去所犯的错误中吸取了教训,最后,随着人工智能和机器学习变得更加重要,重点更多的放在结果和价值上,以及对近实时分析、高级分析和可视化的需求,人们更加关注结果和价值。
我们还看到数据湖向商业智能解决方案转变。简单地总结一下:数据湖景观发展迅速,其本质仍然是将数据转化为价值和更好地实现这一目标的手段,技术前沿的大量趋势和经验教训,使得我们很难将数据湖的过去与现在进行比较,更不用说未来了。许多组织表示,它们计划部署一个数据湖,并转向云,这一未来看上去相当光明。
要知道,当数据湖变得流行时,大数据仍然是一个热门词,至少大数据已经变得无所不在了。大数据就是数据,问题是如何处理它。总的来说,数据的成熟度已经提高,新一代的专家知道,大数据分析是获得价值的关键所在,你对待数据的方式与传统数据仓库时代不同-关于利用大数据的思维方式和文化已经在酝酿。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15在统计学领域,二项分布与卡方检验是两个高频出现的概念,二者都常用于处理离散数据,因此常被初学者混淆。但本质上,二项分布是 ...
2025-12-15在CDA(Certified Data Analyst)数据分析师的工作链路中,“标签加工”是连接原始数据与业务应用的关键环节。企业积累的用户行 ...
2025-12-15在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04