
数据中心基础设施是大数据战略成败的关键
为了成功实施大数据战略,企业数据中心基础设施的建设应当从围绕云计算,过渡到围绕大数据展开,这需要数据中心基础架构为大数据作出五大改变。
以下内容转自机房360:
为大数据选择新的硬件、存储和其它数据中心基础设施,这是IT专业人员们所面临的新挑战。
大数据是具备空前规模和形式的非结构化信息。它包括视频、图像,以及半结构化的数据(例如在Web上常见的电子邮件和文本)。随着基于传感器的移动Web监视设备和输出数据越来越多,可用的数据量将继续呈指数级增长。
推行大数据战略的压力往往来自高层,因为管理者相信,能有效运用数据的企业将比落后者具备更大优势。大数据战略需要数据中心基础架构作出的改变主要有五点:
一、支持大数据的硬件
大数据导致的存储需求量每年都将增长60%至80%,鉴于这种快速增长和当前的成本限制,IT采购者应选择在可扩展性和存储速度上最具成本效益的硬件。类似大型机的向上扩展体系结构重新兴起,因为它们能够经济高效地扩展,降低总体拥有成本。同样,在提升性能方面,固态硬盘(SSD)和固态卡带都比传统磁盘做得更好。
类似IBM Netezza和Oracle Exadata的硬件装置已被证实能有效兼顾可扩展性和性能。考虑采用硬件装置来支持关键大数据业务,但也应确认设备的架构能在未来提供快速性能升级。
二、围绕大数据选择存储
在成功的大数据策略下,企业可以将来自内部的高质量数据与Hadoop挖掘自多个云供应商的低质量数据进行整合。这也就改善了业务相关数据的质量,让分散在各地的数据能组织成为具备一致和及时性的大数据资源。
大数据正在改变中央数据仓储和松耦合数据集市的决策基础,后者的存储库规模要小得多,既可以替代中央数据仓库,也可以成为中央数据仓库的数据源。随着各地办事机构或者国际子公司的增加,中央管理层在业务线扩大的同时更需要高质量的数据来维持管控力度,避免权力的分散。
新的软件技术承担了繁重的存储相关处理工作。由Composite Software(刚刚被Cisco收购)和Denodo提供的数据虚拟化软件能自动发现数据源并提取数据充实全局元数据存储库,为整个组织提供跨越内部和外部的所有数据的公共数据库外观和体验。主数据管理软件通过创建公用主记录提高了数据质量,消除了费时的数据仓库检索。
企业Web外链需求加深了对公众和混合云的依赖。许多大型企业发现他们需要来自于多个云供应商的大数据,却不能指望供云应商会负责整合这些数据。企业只能从数据虚拟化供应商寻求工具来跨多个云整合大数据。
三、利用SSD的存储分层策略
存储成本很高,而且越快的存储也就越昂贵。最重要的是,大数据要求存储同时提供大容量和“大”性能。存储分层在存储资源池中提供多种成本/性能选项,从昂贵的高性能固态存储到传统的串行SCSI(SAS)磁盘存储,这些选项的组合降低了总拥有成本。在主内存和磁盘之间增加一个固态层将有助于将大数据任务的性能维持在高位,而且不会引起存储成本失控。
SSD的用量应遵从“90-10”的存储分层规则:成本和速度的最佳组合比例是:使用大约10%的SSD和90%的机械硬盘。这一策略让IT公司用仅增加10%成本的代价就能获得90%以上的性能提升。主内存和SSD的容量比例也遵从同样的规则。
由于SSD的性能价格比的提升速度超过传统磁盘(容量提升,价格降低),预计在不久的将来传统磁盘和SSD的配置比例会变为遵循80-20的规则。
IBM BLU Acceleration这类最新的纵列和内存数据库设施能利用SSD获得远超传统磁盘的性能,它们的设计能够有效发挥SSD这类“扁平化磁盘”的优势。
四、大数据分析和报告能力
虽然嵌入式分析工具已经可以利用报告和自动优化功能改善业务流程,但大数据再次改变了分析规则。例如,和传统上对单个客户进行主要行为分析洞察相比,大数据战略能为每个客户创建一个迭代和洞察分析线程,让公司能跟踪客户并更好地维持与所有客户的长期关系。
典型的大数据分析从业人员被称为数据科学家,和常规的IT主管不同,他们更可能同时担任CMO(营销总监)。然而,IT专业人员必须明白他们公司的大数据策略对数据科学家的工作产生的影响。
这意味着需要在自动化的报告和嵌入分析之外人工添加第三方审议内容:专设和松散耦合分析。支持专设查询的分析和统计工具是必要的软件前提。许多传统IT供应商以及云供应商——如IBM、Cognos和Birst——正在扩充这些功能。
五、企业中的Hadoop
Hadoop为数据密集型应用提供“紧贴着”MapReduce文件系统处理程序框架的分布式文件系统。此文件系统支持针对富文本数据的并行事务扩展,例如社交媒体数据。
许多IT公司通过在企业内创建自己的Hadoop版本来解决从Web获取Hadoop数据源的问题。然而,缺乏专业知识是一种挑战:精通这种发展中的Web数据管理框架的专业和艺术的IT管理人员犹如凤毛麟角。
组织开发他们自己的数据管理工具时应该留意,如IBM、Oracle和EMC的这些主要供应商,往往既提供专有产品用于访问Hadoop数据,也可进行定制开发,让IT公司不需要专门的数据归纳措施就能访问需要的数据。如果您决定搭建自己的数据平台,供应商也提供整合服务,使Hadoop更贴合现有IT资源来高效运作。
每个公司围绕大数据的相关决策都会有所不同。请记住,随着围绕大数据的技术演变,大数据战略也应当及时调整,与时俱进。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01