京公网安备 11010802034615号
经营许可证编号:京B2-20210330
让你的大数据应用具备更高性能
大数据应用在大型企业中变得越来越常见。企业具备历史数据分析和趋势预测的能力,能够为自身创造可观价值;此外,商业智能分析不仅可以避免出现运输中断、资源短缺,还能减少服务水平协议SLA和预测客户所需的产品和服务。BI能够给企业带来巨额红利。
随着购物节的临近,利用客户交互的明显增加,可以预期到你的企业将会开展更多的BI活动。通过优化大数据应用,提高性能,IT企业应该积极为更大数据量和更多的分析活动做好准备
DBA、支持人员应将他们的努力集中在以下几个领域:灾难恢复,数据仓库性能和数据组织以及大数据的应用中的数据存储。
大多数IT人员认为灾难恢复并不属于性能调优的范畴。在大数据环境下,这一误解又有所加深,因为人们普遍认为建立在大数据应用上的数据分析,相对于计算工资,总帐,订单输入,运输和客户服务之类的应用来说,并不十分重要。
但是,大数据应用在过去的几年里已经日趋成熟,企业所使用的业务分析功能也随之日臻完善。曾经的临时查询现在被作为常规报表来执行;额外的历史数据允许查询对大量数据进行比较和分析,通过进行负载均衡,商业分析软件可以让你的大数据应用得以更加方便快捷的执行查询。这使得今天的大数据应用提供了大量的可操作数据,可以提供更好的客户服务,消耗更低的成本并获得更高的利润。
这意味着,即使大数据应用遭遇一次很小的中断,都可能在你的用户群中产生连锁反应,报表无法按时交付、查询无法正常运行、以及那些基于商业分析结果的决策被延迟等。
DBA应该经常审核DR计划,以保证大数据应用在其控制之下。他们需要关注下列几种情况。
审核恢复过程。一年中最忙的时候就是遭到灾难性故障的时候。中断将会显著的影响企业的营利,特别是在事务频繁的时期。DBA应该协助恢复过程,避免浪费时间和精力。
验证恢复时间。很多DR计划包括一个目标恢复时间,表示可以完全恢复的最晚时间点。对于数据库来说,这可能意味着从备份文件恢复数据,并将日志从备份时间调整到恢复时间点。在高峰时期,数据和事务量较大;因此,恢复时间可能延长。为了降低这种风险,DBA应该考虑实施更频繁的关键数据库备份。由于在数据表恢复过程中,通常需要花时间来重建索引,DBA应该将DB2的备份和恢复能力考虑在内。
一般来说,大数据的存储和分析或存在于企业数据仓库(EDW)内部,或者与其相关。要整合各地的大数据解决方案,你需要为每一部分的EDW过程设置接口。下面是一个关于EDW子系统的总结,涉及大数据对它们的影响,以及如何提前制定性能计划。
数据获取和采集。包括一个在数据转移到EDW之前,用于暂存数据的方案,以避免硬件故障造成的延误。还应确定这些新资产和流程将如何影响你的灾难恢复计划。开发人员喜欢在旺季开始之前实现新功能或加固操作系统。其中一些增强数据可能需要传递到你的数据仓库,随后为大数据应用可能执行的查询提供服务。在此之前你要确定,这些新应用或者改动后的应用可能需要一个业务分析组件,
数据转换和迁移。快速迁移大量数据可能需要额外的资源,甚至特殊的软件或硬件。你的网络有能力将日益增长的数据从操作系统迁移到数据仓库,并最终部署到大数据应用中么?
数据访问和分析。随着数据持续填满仓库,在仓库和大数据的应用合并后,用户可以运行分析软件。捕获数据访问路径和数据分布统计信息并留作分析。你需要确定是否有足够的系统资源(CPU、磁盘存储、网络容量等)来支持预期的查询工作负载。
数据归档。大量的数据分析,庞大的数据量可能会占用宝贵的存储介质,使一些进程运行缓慢。IT和业务合作伙伴必须决定如何以及何时将旧的大数据存档清除,以及它是否必须保留以供日后使用。
供应商销售的第一大数据应用通常是即插即用型的。几乎没有调优选项。主要的原因是,应用依赖一个专有的,混合的硬件和软件解决方案,该解决方案使用大规模并行存储和I / O,以实现对分析查询的快速应答。
客户对于大数据分析的需求日益成熟,供应商解决方案需要提供多个同步存储和检索数据的方法。其结果是供应商设计并实现了可选数据存储和检索选项。一个例子是指定关键记录如何存储的能力。设想一个大数据应用,实现了一百个独立的磁盘驱动器。原始的应用通常将记录随机分散到这些驱动器。一些分析查询可以在逻辑上分成一百个独立的查询,每个查询访问一个驱动器,所有查询的结果合并成最终的答案,比相同的序列数据库查询快上一百倍。
然而,考虑一个基于键的,需要连接两个表的查询。随机分布在一百个磁盘驱动器的两个表将不再具备性能优势,因为行连接操作与两个表存储在同一个磁盘驱动器上时已经完全不同了。
目前很多大数据应用解决方案包含选项和算法以支持跨驱动器的表查询,存储是按键值排序的,并不是随机分布。通过在每一个磁盘驱动器存储相同范围的键值行,行连接操作将在同一个驱动器上执行。因此按键值指定数据分布的能力提供了巨大性能提升。
考虑到这一点,以下是一些建议,可用于大数据应用的性能调优。
检查数据分布统计信息。使用RunStats程序来收集表键和数据分布信息。特别是主键和外键索引,因为表连接通常会基于这些列。
审查数据访问路径。在本质上分析查询是临时的,数据表最有可能使用相同或相似的访问路径加被访问。捕获和分析这些访问路径寻找常见的连接方法。这一信息,加上数据分布统计信息,将帮助您确定数据表应如何按键值分布在大数据应用中。
存储数据访问路径以进行分析。作为上面的建议的延伸,你应该有一个方法用于捕获和储存分析查询的访问路径。方法返回结果应展示出表和索引是如何被访问,以及使用了哪些索引,执行了哪些排序等等。查询获取更多的数据,数据量增加返过来审查你的历史访问路径并比较。数据量增加引起的变化,观察访问路径的变化都可能表明性能出了问题。
通过审核数据恢复流程,提高数据仓库的性能,评估当前大数据应用性能的优化选项,可以让你的大数据应用为即将到来高峰做好准备。大数据应用的数据组织方式对性能有这十分显著的影响;此外,你还应该仔细考虑可能发生的故障,为灾难做好准备,即使大数据应用上一个小的中断都可能对企业利益造成重大影响。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20