|
|
|
随着不断增加的大数据解决方案需求,Apache Hadoop已经迅速成为存储和处理海量结构化和非结构化数据的首选平台之一。企业只需在少量基于英特尔® 至强® 处理器的服务器上部署这种开源软件框架,就可用较低的成本迅速开始进行大数据分析。随后可逐步将其 Apache Hadoop 集群扩展到数百乃至数千个节点,从而将多 PB 数据的查询响应时间缩短到次秒级。
英特尔与 Apache Hadoop 社区开展协作,支持系统管理员尽可能地实现其 Apache Hadoop 集群的最高性能同时保证复杂度处于最低限度。英特尔开发了 HiTune 性能分析器和 HiBench 基准测试套件,用它们来降低 Apache Hadoop 性能调优的复杂性,用户可以在更短的时间内更有信心地设计和实现 Apache Hadoop 解决方案。
HiTune 性能分析器
Apache Hadoop 的主要优势之一就是比传统数据仓库更容易部署和使用。然而,由于分布式环境的硬件与软件之间存在复杂的交互,因此要优化 Apache Hadoop 集群和工作负载以提高性能会面临重重挑战。为了应对这样的挑战,英特尔开发了 HiTune,为开发人员提供了开发高度可伸缩型应用程序的简单工具。这种可伸缩、轻量级、可扩展的性能分析器可以帮助您向客户交付性能更高的 Apache Hadoop 集群和应用程序。此外,还可以帮助您的客户在其集群的整个生命周期内获得更高的价值。
典型的 Apache Hadoop 查询是使用直观、高级的数据流模型编写的。这对于程序员而言非常理想,因为数据分区、任务分发、负载平衡、容错和节点通信等所有繁杂的细节都由 Apache Hadoop 运行时环境来处理。然而,隐藏这种低级复杂性也会导致性能调优成为一项繁琐的挑战。因为工程师对于硬件与软件之间的低级交互知之甚少,甚至毫不知晓,而这种认识却是理解和优化性能所必不可少的前提。工程师们通常只能依靠漫长而又耗时的试错法,而结果往往也只是能得到次优的性能。
HiTune 将监视 Apache Hadoop 集群中各服务器的关键性能指标,随后汇总这些低级指标,将这些指标与高级数据流模型相关联。这样工程师就可以获得不同任务与阶段之间动态交互的深入了解,并迅速查明拖慢性能的性能瓶颈、应用程序热点和硬件问题。
1、简化和加速性能调优。HiTune 提供了详尽的分析和可视化,对正在运行的应用程序的性能影响微不足道,而且无需修改源代码。英特尔工程师广泛利用这种工具,在很多情况下,仅凭相对简单的硬件或软件调整就实现了高达六倍的性能收益。
2、跨数千台服务器扩展分析。HiTune 可用于分析生产环境中跨数千台服务器运行、包含数十万个同步进程的应用程序。HiTune分析引擎可作为一个 Apache Hadoop 作业来运行,支持通过大规模并行执行海量性能数据的快速分析。工程师不需要分析在一个集群的某个部分上运行的部分应用程序,而是可以收集和分析完整的信心,获得更有用的洞察。
3、逐渐获得更高的价值。英特尔将继续为 Apache Hadoop 和其他分布式大数据解决方案扩展并优化 HiTune。英特尔已经利用 HiTune 调优和优化了 Apache Hive 的性能,Apache Hive 是基于 Apache Hadoop 构建的开源数据仓库。您现在积累的调优专业经验会在未来交付更高的价值。
HiBench 基准测试套件
随着市场的发展,随着客户开始以接近实时的方式利用大数据洞察力来提高收入流、盈利能力和经营效率,优化和验证 Apache Hadoop 集群的性能变得更加重要。利用 HiBench 基准测试套件,您可以跨不同的工作负载准确而又一致地度量、验证和对比 Apache Hadoop 集群的性能,为客户提供更出色的信息和信心。
HiBench 提供了对 10 种易于使用的 Apache Hadoop 工作负载的便捷访问,这些工作负载经过扩展、配置和定制,能够反映典型的部署。您可以为特定的通用任务度量性能,例如排序和文字计数,或者为更加复杂的实际应用度量性能,这些应用包括 Web 搜索、机器学习和数据分析。不同的工作负载具有不同的特征,使您能够建立测试矩阵,体现特定环境的资源需求。
英特尔将继续扩展和改进 HiBench,还会与领先供应商和标准实体联手协作,开发针对 Apache Hadoop 的行业标准性能基准测试。建立这些基准测试之后,您就具备了理解架构问题、度量和验证 Apache Hadoop 解决方案性能的更好基础。
构建一个经过验证的基础
设计全面优化的 Apache Hadoop 集群需要深入理解整个解决方案体系。可能要投入数月的时间来探索 Apache Hadoop 工作负载特征,并了解如何与底层硬件和软件交互。还可以利用英特尔多年来与目前运行某些全球规模最大、最成功的 Apache Hadoop 实现的企业之间共同研究和协同使用所得到的专业经验,这些企业包括 Google、Yahoo! 和某些顶尖的电信与金融服务企业。
英特尔将这种专业经验构造成为参考架构、调优指南和最佳实践建议,可以将它们用作设计和部署 Apache Hadoop 集群的起点。利用从硬件规范直至完整软件架构的明确指南,可以更迅速、更经济地设计、构建和配置最适宜的解决方案。
还可以在多种领先 Apache Hadoop 发布版中任意选择,所有这些发布版均已针对英特尔至强处理器而高度优化。英特尔与 Cloudera、Hortonworks、IBM 和其他商业经销商合作,确保运用的是已专门针对企业环境中的生产就绪性而进行扩展、加强和测试的软件,在英特尔架构上实现最优性能。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03