大数据分析工具Hadoop 2.0需要注意的新问题
导读:本文分析了Hadoop 2.0中的一些变化以及用户需要注意的问题,Hadoop分布式处理架构为IT、数据管理以及数据分析团队带来了新生机的同时,也带来了新的挑战。
在大数据时代,Hadoop分布式处理架构为IT、数据管理以及数据分析团队带来了新生机的同时,也带来了新的挑战。随着Hadoop生态系统的不断发展壮大,企业需要对快速更新换代的技术做好充足的准备。
上周,Apache软件基金会刚刚宣布了Hadoop 2.0的正式GA,新版本的Hadoop将带来大量变化。以HDFS和基于Java的MapReduce为核心组件,Hadoop的早期采用者都在使用它应对海量数据处理,包括结构化与非结构化数据,从日志文件到文本数据,再从传感器数据再到社交媒体数据不一而足。
Hadoop通常以集群的方式运行在廉价服务器上,因此可以有效控制海量数据处理和存储的成本。Ventana研究机构的副总裁Tony Cosentino表示,Hadoop采取了轻架构的数据处理方式, 因此它能够对新型数据源进行充分利用,这是传统关系型数据库架构所不能比拟的。
但Cosentino认为,目前的Hadoop架构也受到了批处理模式的限制,可以把它比作是一辆重型卡车,在性能方面存在较大瓶颈。Hadoop不适合有低延迟需求的应用,它更适合干重活,即海量数据处理。
Hadoop适合分析海量非结构化数据集,它通常是上TB甚至PB的数量级。ScaleOut Software的CEO William Bain表示,由于Hadoop批处理的天性以及大开销所限,它并不适合进行数据集的实时分析。但将Hadoop 2.0与其他厂商所添加的新查询引擎结合,这个问题也将得到有效的解决。
Impetus Technologies的首席架构师Sanjay Sharma表示,数据仓库应用同样涉及到海量数据处理,因此它是天生的Hadoop目标应用。那么多大的数据比较合适?Sharma认为10 TB左右是Hadoop的理想数据量,如果数据集组成非常复杂,那么这个数量还会有所下降。
像汽车导购类信息提供商Edmunds.com这样的用户,都部署了Hadoop以及相关技术来代替传统的数据仓库。大多数企业的Hadoop集群往往被视为数据进入组织的一个缓冲区域,数据由MapReduce来进行“过滤”,转换成为传统的关系型数据,然后再导入到数据仓库或者数据集市来进行分析。这种方式还提供了一定的灵活性,原始数据可以放在Hadoop系统中,需要进行分析的时候在用ETL进行处理。
Sharma把这种部署方式称为“数据下游处理”,而另外一家研究机构的总裁Colin White则用更准确的方式进行了总结,即“业务炼油厂”。在今年发布的一项调查报告中,Gartner分析师Mark Beyer和Ted Friedman指出,使用Hadoop收集数据并为数据仓库中分析数据做准备,这是目前最主流的大数据分析应用实践。而在272个参与调查的用户当中,有超过一半的用户表示他们计划在未来12个月进行这一工作。
从诞生伊始,Hadoop就吸引了无数软件开发者在其基础之上创建新的工具,来弥补自身所存在的诸多不足。比如HBase(分布式数据库),Hive(基于SQL的数据仓库),Pig(MapReduce中开发数据分析程序的高级语言)等。其他的一些支持项目现在也成为了Apache项目的一部分,比如Hadoop集群调配管理和监控工具Ambari,NoSQL数据库Cassandra以及针对大型分布式系统的可靠协调系统ZooKeeper等。
Hadoop 2.0目前已经统一称为Hadoop 2,它已经进入越来越多人的视野当中。其中最重要的一部分就是YARN(Yet Another Resource Negotiator),这个更新的资源管理器能够让非MapReduce开发的应用运行在HDFS上。通过这种方式,YARN旨在解除Hadoop的批处理限制,同时提供与现有应用结构的向下兼容。
Cosentino表示,YARN是Hadoop 2.0的最重要发展,它能够让多种工作负载并发运行。Yahoo就是一个很好的例子,他们在YARN上部署了Storm复杂事件处理软件,用来辅助把网站用户行为数据过滤到Hadoop集群当中。
Hadoop 2还提供了在高可用方面的改进,新的特性能够帮助用户在HDFS上创建一个联邦命名节点架构,而无需依靠一个单一的节点来控制整个集群。此外,它还添加了对Windows平台的支持,配合大型厂商定制开发的各种实用工具,Hadoop在企业级层面上的应用将被看好。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14