
大数据分析中的八大趋势
Remarketer的首席数据科学家Dean Abbott直接奔向了云计算。大数据和分析的领先优势,其中包括用来存储原生格式的大量数据的数据湖泊,当然,云计算技术也在快速前进。虽然技术选项还远远没有成熟,但是等待根本不是一个选项。
“现实情况是,这些工具仍不断涌现,并且Hadoop的平台的承诺并没有达到业务需要依赖于它的水平,”Loconzolo说。但是,大数据和分析的学科发展如此之快以至于企业需要在涉水该方面或冒落后的风险。 “在过去,新兴技术可能花费数年时间才能成熟,”他说。 “现在人们在几个月内或几周内就能拿出迭代和驱动解决方案”那么,什么才是应该是您的观察名单上的或在您的测试实验室中的最重要的新生技术和发展趋势?计算机世界要求IT主管、咨询顾问和行业分析师来权衡。这里是他们给出的名单。
Hadoop是一个用于处理非常大的数据集的框架和工具,它最初被设计为在集群的物理机器上工作。这已经改变了。“现在越来越多的技术可用于在云中处理数据,”一Forrester Research的分析师布赖恩•霍普金斯说。例子包括亚马逊的Redshift托管BI数据仓库、谷歌的BigQuery中的数据分析服务、IBM的Bluemix云平台和亚马逊的室壁运动数据处理服务。 “大数据的未来状态将是内部部署和云的混合,”他说。
Smarter Remarketer,是基于SaaS零售分析、细分和营销服务的提供商,最近从一个内部的Hadoop和MongoDB的数据库基础架构转向了亚马逊的Redshift,Redshift是基于云的数据仓库。印第安纳波利斯的公司在收集网上的和零售销售的以及客户的人口统计数据,以及实时行为数据,然后分析这些信息,以帮助零售商在现实中的某些情况下建立有针对性的消费者需要的信息反馈机制。
Abbott说redshift对smarter Remarketer更具成本效益,特别是因为它具有结构化数据丰富的报表功能。而作为一个托管服务,这既具有可扩展性和又非常容易使用。 “扩大在虚拟机比购买物理机管理工作更便宜,”他说。
就其本身而言,总部设在加州的 Mountain View 已经小心翼翼走向云分析,因为它需要一个安全、稳定和可审计的环境。目前,金融软件公司保持私有Intuit分析云内的一切。“我们正在与亚马逊和Cloudera合作一个可以跨越公私,高可用性和安全分析的云,但目前还没有人解决这个问题,”Loconzolo说。但是,像Intuit这种卖能够在云中运行的产品的公司转向云是不可避免的。 “它会达到这样一种程度,那便是高成本的将所有的数据转移到一个私有云中,”他说。
霍普金斯说,分布式分析的框架,如MapReduce,正在演变为逐渐转向Hadoop的通用数据操作系统的分布式资源管理器。他说,有了这些系统,你可以通过将它们插入Hadoop作为分布式文件存储系统来执行许多不同的数据操作和分析操作。
这对企业意味着什么呢?由于SQL,MapReduce的,内存,流处理,图形分析和其他类型的工作负载在Hadoop上有足够的性能来运行,越来越多的企业将会使用Hadoop作为一个企业的数据中心。霍普金斯说,“在Hadoop中运行许多不同种类的查询和数据操作将使你想进行分析的数据中心成本更低、更加通用”。
Intuit公司的Hadoop基础已经建立。“我们的策略是利用Hadoop分布式文件系统,它将与MapReduce和Hadoop密切合作,它将作为一项能使所有类型的人与产品进行互动的长期战略,,”Loconzolo说。
传统的数据库理论决定了你可以再输入任何数据之前设计数据设置。数据湖,也被称为企业的数据湖泊或企业数据中心,逐渐成为企业的大脑,在普华永道美国咨询业务的合伙人兼首席技术专家克里斯•柯伦说。 他说,“据说我们将把这些数据源放到一个大的Hadoop存储库中,我们不会事先试图设计一个数据模型”。相反,它将给人们提供工具来分析数据,以及给在湖中存在的数据一个高层次的定义。 随着不断深入,人们逐渐建立起对数据的看法。对于建设一个大型的数据库,这将是一个大增量的有机的模型,“柯伦说。不大好的地方就是,使用它的人必须是高度熟练。
Loconzolo说,作为Intuit分析云的一部分,Intuit有一个数据湖,其中包括用户点击流数据和企业以及第三方数据,但重点是“民主化”周围的工具,使商务人士能有效地使用它。 Loconzolo说,在Hadoop上构建数据湖,他的关心的是对于该平台企业并没有真正就绪。 “我们希望,传统的企业数据库,有几十年的监控访问控制、加密、保护数据并跟踪从源到目标数据的血统,”他说。
霍普金斯说,在大数据时代,分析师不仅要和更多的数据一起工作,而且要掌握处理大量的多属性记录的能力。传统的机器学习使用基于总数据集的样本进行统计分析。他说,“你现在有能力处理非常大的数字记录和每条记录的属性”,并且增加了可预测性,。
大数据和计算能力的组合也可以让分析师探索全天新的行为数据,如访问的网站或位置。霍普金斯将其称之为“稀疏数据”,因为要找到感兴趣的东西,你必须涉及大量的不相关的数据。“试图用传统的机器学习算法,对这种类型的数据的计算是不可能的。他说,现在我们可以用廉价的计算能力来解决问题。“当速度和内存不再是关键问题时,你制定的问题就会完全不同,”Abbott 说。“现在,通过对问题配以巨大的计算资源,你可以找到哪些变量是最合适被解析的。这真的是一个改变游戏规则。“
Loconzolo说,“由于相同Hadoop核心,实现实时分析和预测建模,这就是我们的利益所在”。对于这个问题,Hadoop以比更成熟的技术长达20倍的时间来获得答案。所以Intuit公司正在测试Apache Spark,这是一种大规模数据处理引擎,及其相关的SQL查询工具,Spark SQL。 “Spark有快速交互式查询和图表服务和流媒体的功能。Loconzolo说,它将数据保持在Hadoop之中,但为我们以足够的性能来缩小差距。
如果你是一个聪明的编码器和数学家,你可以在Hadoop上存放数据,并对任何事情做出分析。这是承诺和问题,Gartner的分析师马克•拜尔表示。“我需要有人把它变成一个我很熟悉的格式和语言结构,”他说,SQL 是可以被Hadoop产品所识别的,即使任何熟悉的语言都可以有这个功能,拜尔说。支持类似SQL的查询工具,使得那些已经了解SQL应用类似的技术企业用户能更好的把握数据。霍普金斯说, SQL在Hadoop之上“打开了企业Hadoop平台的门”因为企业并不需要对高端数据科学家和商业分析师投资,那些人可以编写使用Java、JavaScript和Python脚本 ,这是Hadoop的用户传统上需要做的。
这些工具不是什么新鲜事物。 Apache Hive的配置单元提供了一个结构化的结构化,曾经用于Hadoop的类似SQL的查询语言。但是,来源于Cloudera、匹维托软件、IBM和其他供应商的商业选择,不仅提供了更高的性能,同时也变得越来越快。这使得该技术非常适合“迭代分析,”其中一位分析师问了一个问题,得到一个答案,然后问另外一个。这类型的工作,历来需要构建一个数据仓库。 SQL在Hadoop中不会取代数据仓库,至少不会很快,霍普金斯说,“但它确实给特定类型的分析提供了更昂贵的软件和设备的替代品。”
柯伦说,替代传统的基于SQL的关系型数据库的,叫做NoSQL(简称“不仅是SQL”)数据库,作为在特定种类的分析应用程序使用的工具正在迅速得到普及,并且这一势头将继续增长。他估计,有15到20个开源NoSQL数据库,每个都有自己的特点。例如,一个拥有图形数据库的能力的NoSQL产品,如ArangoDB,提供了一个比相关数据库更快速、更直接的方式来分析客户或销售人员的关系网络。这些数据库已经存在了一段时间,但他们在加速发展,因为人们需要的各种分析,他说。普华永道一位客户在新兴市场已经在商店货架上放置了传感器以监控哪些产品还有,客户处理他们用多长时间以及消费者在货架前站多长时间。 “这些传感器喷涌的数据流将成倍增长,”柯伦说。 “一个NoSQL的key-value对的数据库,如Redis正是这种合适的地方,因为这是专用的,高性能和轻便的。”
深度学习,基于神经网络的一套机器学习技术,仍在不断发展,但在解决业务问题上有巨大潜力,霍普金斯说。 “深度学习使计算机能够识别大量的非结构化和二进制数据,并在不需要特定的模型或编程指令下推断出之间的关系,”他说。
举一个例子,一个深度学习算法可以从维基百科的数据自身知道,加利福尼亚州和得克萨斯州这两个州在美国。“它没有被定为模型去了解一个国家和国家的概念,并且这在旧的机器学习和新兴深度学习方法之间有很大差异,“霍普金斯说。
霍普金斯说,“大数据将使用类似深度学习先进的分析技术,以我们现在才开始理解的方式处理很多不同的和非结构化的文本”。例如,它可以用于识别许多不同种类的数据,比如形状,颜色和视频中的物体 – 或甚至图像内的猫,如由谷歌在2012年所做的著名的“神经网络”。识别管理和高级分析概念以及它所寓意的东西是一个重要的未来趋势,霍普金斯说。
拜尔说,使用内存数据库来加快分析处理成为日益流行和非常有益的设置。事实上,很多企业已经借助混合交易/分析处理(HTAP) – 允许交易和分析处理驻留在同一个内存数据库。
拜尔说,但是有很多围绕HTAP的炒作,而企业已经过度使用了。对于其中用户需要整天以同样的方式多次观察相同的数据系统,并且这里面的数据中没有显著变化 – 在内存中是一种浪费。
虽然你可以更快地用HTAP进行分析,所有的交易都必须驻留在同一个数据库中。拜尔说,问题是,是现在大多数的分析工作是关于把数据从许多不同的系统连接在一起。“只要把全部的都放在一个数据库可以追溯到这个证伪的信念,如果你想使用HTAP你所有的分析中,它要求所有的交易是在一个地方,”他说,“你仍然需要集成不同的数据。”
此外,引进的内存数据库意味着有另一种产品来管理、安全、并找出如何整合和规模。
对于Intuit公司来说,Spark的使用已经带走了一些拥抱内存数据库冲动。“如果我们能够用Spark基础设施解决我们实用案例的70%,内存中的系统便可以解决100%,我们将继续保持我们的分析云中的70%,”Loconzolo说。 “因此,我们将原型,看看它现在是否已经准备好,并停留在内存系统内部。”
随着围绕大数据和分析出现如此多的新趋势,IT组织需要创造条件,让分析师和数据科学家做实验。 “你需要一种方法来评估,做出原型并最终融入其中的一些技术应用到企业,”柯伦说。
“IT经理和实施人员不能以缺乏成熟为借口,停止试验,”拜尔说。最初,只有少数人 – 最熟练的分析师和数据科学家 – 需要进行试验。那么那些高级用户和IT部门应该共同确定何时提供新的组织的其余部分资源。并且IT部门不一定想要向前全速前进的分析师。相反,拜尔说,IT部门需要与分析师合作,“把变速油门安装在这些新的高性能的工具之上”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18