
|
|
|
随着不断增加的大数据解决方案需求,Apache Hadoop已经迅速成为存储和处理海量结构化和非结构化数据的首选平台之一。企业只需在少量基于英特尔® 至强® 处理器的服务器上部署这种开源软件框架,就可用较低的成本迅速开始进行大数据分析。随后可逐步将其 Apache Hadoop 集群扩展到数百乃至数千个节点,从而将多 PB 数据的查询响应时间缩短到次秒级。
英特尔与 Apache Hadoop 社区开展协作,支持系统管理员尽可能地实现其 Apache Hadoop 集群的最高性能同时保证复杂度处于最低限度。英特尔开发了 HiTune 性能分析器和 HiBench 基准测试套件,用它们来降低 Apache Hadoop 性能调优的复杂性,用户可以在更短的时间内更有信心地设计和实现 Apache Hadoop 解决方案。
HiTune 性能分析器
Apache Hadoop 的主要优势之一就是比传统数据仓库更容易部署和使用。然而,由于分布式环境的硬件与软件之间存在复杂的交互,因此要优化 Apache Hadoop 集群和工作负载以提高性能会面临重重挑战。为了应对这样的挑战,英特尔开发了 HiTune,为开发人员提供了开发高度可伸缩型应用程序的简单工具。这种可伸缩、轻量级、可扩展的性能分析器可以帮助您向客户交付性能更高的 Apache Hadoop 集群和应用程序。此外,还可以帮助您的客户在其集群的整个生命周期内获得更高的价值。
典型的 Apache Hadoop 查询是使用直观、高级的数据流模型编写的。这对于程序员而言非常理想,因为数据分区、任务分发、负载平衡、容错和节点通信等所有繁杂的细节都由 Apache Hadoop 运行时环境来处理。然而,隐藏这种低级复杂性也会导致性能调优成为一项繁琐的挑战。因为工程师对于硬件与软件之间的低级交互知之甚少,甚至毫不知晓,而这种认识却是理解和优化性能所必不可少的前提。工程师们通常只能依靠漫长而又耗时的试错法,而结果往往也只是能得到次优的性能。
HiTune 将监视 Apache Hadoop 集群中各服务器的关键性能指标,随后汇总这些低级指标,将这些指标与高级数据流模型相关联。这样工程师就可以获得不同任务与阶段之间动态交互的深入了解,并迅速查明拖慢性能的性能瓶颈、应用程序热点和硬件问题。
1、简化和加速性能调优。HiTune 提供了详尽的分析和可视化,对正在运行的应用程序的性能影响微不足道,而且无需修改源代码。英特尔工程师广泛利用这种工具,在很多情况下,仅凭相对简单的硬件或软件调整就实现了高达六倍的性能收益。
2、跨数千台服务器扩展分析。HiTune 可用于分析生产环境中跨数千台服务器运行、包含数十万个同步进程的应用程序。HiTune分析引擎可作为一个 Apache Hadoop 作业来运行,支持通过大规模并行执行海量性能数据的快速分析。工程师不需要分析在一个集群的某个部分上运行的部分应用程序,而是可以收集和分析完整的信心,获得更有用的洞察。
3、逐渐获得更高的价值。英特尔将继续为 Apache Hadoop 和其他分布式大数据解决方案扩展并优化 HiTune。英特尔已经利用 HiTune 调优和优化了 Apache Hive 的性能,Apache Hive 是基于 Apache Hadoop 构建的开源数据仓库。您现在积累的调优专业经验会在未来交付更高的价值。
HiBench 基准测试套件
随着市场的发展,随着客户开始以接近实时的方式利用大数据洞察力来提高收入流、盈利能力和经营效率,优化和验证 Apache Hadoop 集群的性能变得更加重要。利用 HiBench 基准测试套件,您可以跨不同的工作负载准确而又一致地度量、验证和对比 Apache Hadoop 集群的性能,为客户提供更出色的信息和信心。
HiBench 提供了对 10 种易于使用的 Apache Hadoop 工作负载的便捷访问,这些工作负载经过扩展、配置和定制,能够反映典型的部署。您可以为特定的通用任务度量性能,例如排序和文字计数,或者为更加复杂的实际应用度量性能,这些应用包括 Web 搜索、机器学习和数据分析。不同的工作负载具有不同的特征,使您能够建立测试矩阵,体现特定环境的资源需求。
英特尔将继续扩展和改进 HiBench,还会与领先供应商和标准实体联手协作,开发针对 Apache Hadoop 的行业标准性能基准测试。建立这些基准测试之后,您就具备了理解架构问题、度量和验证 Apache Hadoop 解决方案性能的更好基础。
构建一个经过验证的基础
设计全面优化的 Apache Hadoop 集群需要深入理解整个解决方案体系。可能要投入数月的时间来探索 Apache Hadoop 工作负载特征,并了解如何与底层硬件和软件交互。还可以利用英特尔多年来与目前运行某些全球规模最大、最成功的 Apache Hadoop 实现的企业之间共同研究和协同使用所得到的专业经验,这些企业包括 Google、Yahoo! 和某些顶尖的电信与金融服务企业。
英特尔将这种专业经验构造成为参考架构、调优指南和最佳实践建议,可以将它们用作设计和部署 Apache Hadoop 集群的起点。利用从硬件规范直至完整软件架构的明确指南,可以更迅速、更经济地设计、构建和配置最适宜的解决方案。
还可以在多种领先 Apache Hadoop 发布版中任意选择,所有这些发布版均已针对英特尔至强处理器而高度优化。英特尔与 Cloudera、Hortonworks、IBM 和其他商业经销商合作,确保运用的是已专门针对企业环境中的生产就绪性而进行扩展、加强和测试的软件,在英特尔架构上实现最优性能。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关键 ...
2025-06-092025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27