
|
|
|
随着不断增加的大数据解决方案需求,Apache Hadoop已经迅速成为存储和处理海量结构化和非结构化数据的首选平台之一。企业只需在少量基于英特尔® 至强® 处理器的服务器上部署这种开源软件框架,就可用较低的成本迅速开始进行大数据分析。随后可逐步将其 Apache Hadoop 集群扩展到数百乃至数千个节点,从而将多 PB 数据的查询响应时间缩短到次秒级。
英特尔与 Apache Hadoop 社区开展协作,支持系统管理员尽可能地实现其 Apache Hadoop 集群的最高性能同时保证复杂度处于最低限度。英特尔开发了 HiTune 性能分析器和 HiBench 基准测试套件,用它们来降低 Apache Hadoop 性能调优的复杂性,用户可以在更短的时间内更有信心地设计和实现 Apache Hadoop 解决方案。
HiTune 性能分析器
Apache Hadoop 的主要优势之一就是比传统数据仓库更容易部署和使用。然而,由于分布式环境的硬件与软件之间存在复杂的交互,因此要优化 Apache Hadoop 集群和工作负载以提高性能会面临重重挑战。为了应对这样的挑战,英特尔开发了 HiTune,为开发人员提供了开发高度可伸缩型应用程序的简单工具。这种可伸缩、轻量级、可扩展的性能分析器可以帮助您向客户交付性能更高的 Apache Hadoop 集群和应用程序。此外,还可以帮助您的客户在其集群的整个生命周期内获得更高的价值。
典型的 Apache Hadoop 查询是使用直观、高级的数据流模型编写的。这对于程序员而言非常理想,因为数据分区、任务分发、负载平衡、容错和节点通信等所有繁杂的细节都由 Apache Hadoop 运行时环境来处理。然而,隐藏这种低级复杂性也会导致性能调优成为一项繁琐的挑战。因为工程师对于硬件与软件之间的低级交互知之甚少,甚至毫不知晓,而这种认识却是理解和优化性能所必不可少的前提。工程师们通常只能依靠漫长而又耗时的试错法,而结果往往也只是能得到次优的性能。
HiTune 将监视 Apache Hadoop 集群中各服务器的关键性能指标,随后汇总这些低级指标,将这些指标与高级数据流模型相关联。这样工程师就可以获得不同任务与阶段之间动态交互的深入了解,并迅速查明拖慢性能的性能瓶颈、应用程序热点和硬件问题。
1、简化和加速性能调优。HiTune 提供了详尽的分析和可视化,对正在运行的应用程序的性能影响微不足道,而且无需修改源代码。英特尔工程师广泛利用这种工具,在很多情况下,仅凭相对简单的硬件或软件调整就实现了高达六倍的性能收益。
2、跨数千台服务器扩展分析。HiTune 可用于分析生产环境中跨数千台服务器运行、包含数十万个同步进程的应用程序。HiTune分析引擎可作为一个 Apache Hadoop 作业来运行,支持通过大规模并行执行海量性能数据的快速分析。工程师不需要分析在一个集群的某个部分上运行的部分应用程序,而是可以收集和分析完整的信心,获得更有用的洞察。
3、逐渐获得更高的价值。英特尔将继续为 Apache Hadoop 和其他分布式大数据解决方案扩展并优化 HiTune。英特尔已经利用 HiTune 调优和优化了 Apache Hive 的性能,Apache Hive 是基于 Apache Hadoop 构建的开源数据仓库。您现在积累的调优专业经验会在未来交付更高的价值。
HiBench 基准测试套件
随着市场的发展,随着客户开始以接近实时的方式利用大数据洞察力来提高收入流、盈利能力和经营效率,优化和验证 Apache Hadoop 集群的性能变得更加重要。利用 HiBench 基准测试套件,您可以跨不同的工作负载准确而又一致地度量、验证和对比 Apache Hadoop 集群的性能,为客户提供更出色的信息和信心。
HiBench 提供了对 10 种易于使用的 Apache Hadoop 工作负载的便捷访问,这些工作负载经过扩展、配置和定制,能够反映典型的部署。您可以为特定的通用任务度量性能,例如排序和文字计数,或者为更加复杂的实际应用度量性能,这些应用包括 Web 搜索、机器学习和数据分析。不同的工作负载具有不同的特征,使您能够建立测试矩阵,体现特定环境的资源需求。
英特尔将继续扩展和改进 HiBench,还会与领先供应商和标准实体联手协作,开发针对 Apache Hadoop 的行业标准性能基准测试。建立这些基准测试之后,您就具备了理解架构问题、度量和验证 Apache Hadoop 解决方案性能的更好基础。
构建一个经过验证的基础
设计全面优化的 Apache Hadoop 集群需要深入理解整个解决方案体系。可能要投入数月的时间来探索 Apache Hadoop 工作负载特征,并了解如何与底层硬件和软件交互。还可以利用英特尔多年来与目前运行某些全球规模最大、最成功的 Apache Hadoop 实现的企业之间共同研究和协同使用所得到的专业经验,这些企业包括 Google、Yahoo! 和某些顶尖的电信与金融服务企业。
英特尔将这种专业经验构造成为参考架构、调优指南和最佳实践建议,可以将它们用作设计和部署 Apache Hadoop 集群的起点。利用从硬件规范直至完整软件架构的明确指南,可以更迅速、更经济地设计、构建和配置最适宜的解决方案。
还可以在多种领先 Apache Hadoop 发布版中任意选择,所有这些发布版均已针对英特尔至强处理器而高度优化。英特尔与 Cloudera、Hortonworks、IBM 和其他商业经销商合作,确保运用的是已专门针对企业环境中的生产就绪性而进行扩展、加强和测试的软件,在英特尔架构上实现最优性能。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18