京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据实践 基础架构先行_数据分析师
大数据被认为是下一个创新、竞争和生产力的前沿,谁率先抓住大数据的先机即意味着能够在未来市场竞争之中取得杆位。当前大数据市场除了传统厂商之外,还同时涌现出一大批创新技术厂商,并且像零售、金融、互联网、政府机构、科研教育等行业用户对于大数据的认知与认可大大超过了以往任何一项IT技术。归根结底,这是因为大数据能够对业务产生最直接的影响。因此,国内外用户纷纷开始对采用、部署大数据解决方案或技术跃跃欲试,就像着名调研机构Garnter的技术发展规律周期(Hype Cycle)所述,大数据当前处于上升期和快速发展时期,人们当前对于大数据的期望值也是越来越高。从而使得很多用户并不能够冷静思考和对待大数据,甚至一开始狂热追求各种大数据分析技术与算法,这种本末倒置的做法最终很大可能会让期望走向功亏一篑。俗话说,工欲善其事必先利其器,在大数据实践之中,基础架构就犹如基石一般,是构建一切的基础,基础架构基石不稳,大数据“大厦将倾”,具有优秀的基础架构才能够让用户在未来的大数据之路中越走越宽。
图一:Garnter着名的技术发展规律周期(Hype Cycle)图,每项技术的发展过程均可分为五个阶段:上升期、快速发展期、下降期、爬坡期和稳定应用期,当前大数据异常火爆,正在快速发展期。
大数据时代下的基础架构挑战
毫无疑问,大数据时代下,要想实现更大的业务价值,首先需要解决的就是基础架构问题,基础架构之中存储又是重中之重。当前趋势下,社交媒体、移动互联网、物联网、多媒体应用等趋势兴起使得非结构化、半结构化数据大幅增长,加上传统的结构化数据增长,用户的整体数据量呈现出海量、高增长的状态。如何面对数据源繁多、数据增长速度快速、数据种类丰富化、数据存取形式复杂化以及应用需求多样化就成为当前大部分用户首要面对的挑战和难题。
图二:全球知名调研机构IDC公司 对全球数据增长以及数据类型分布情况的调研与预测,未来几年,数据增长会越来越快,其中非结构化、半结构化数据所占比重将会越来越大。
着名咨询机构麦肯锡认为,大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。大数据公认的4V特征包括:容量、类型、速度以及价值(volume、variety、velocity和value)。着名调研机构IDC对于大数据技术定位为:通过高速捕捉、发现和/或分析,从大容量数据中获取价值的一种新的技术架构。另外一方面,我们也可以发现当前对于大数据的一个误区广泛存在于用户之中:当前仍然有很大一部分用户认为新兴起的Hadoop技术、商业智能分析(BI)这些就意味着大数据,他们认为掌控好Hadoop或者BI即可掌控大数据。事实上,大数据不仅仅是Hadoop或者商业智能分析,这些热门技术是大数据分析和处理过程中当前热门的领域,而要想真正实现大数据的价值、为业务发展服务,则需要从全面的角度考虑,比如:大数据不仅仅是海量小文件数据,那些容量巨大的文件数据同样属于大数据的范畴,你的基础架构是否同时能够快速、有效地应对不同类型、大小的文件数据的存储、分析与处理呢?因此,对于用户的基础架构而言,在容量足够大的数据存储需求前提下,首先需要更高的速度和存储效率来满足海量数据存储,从而可以满足多样性的数据要求,最终实现大数据存储的价值。
图三:大数据公认的4V特征:容量、类型、速度以及价值,大数据这四个特征使得传统基础架构已经无法应对,要想实现价值这个环节,首先需要在基础架构上做好充足的准备。
图四:2012针对大数据应用需求的调查,在目前企业数据系统架构中主要存在着扩展性差、资源利用率低、应用部署复杂、运营成本高等问题。
因此,传统存储产品由于自身的设计缺陷,在扩展性方面、与上层应用集成度、高性能、自动化能力、成本等方面已经很难满足大数据诸多的存储特征,根本很难肩负起企业大数据存储、分析以及应用的诸多需求。尤其当前数据的类型丰富程度、容量愈发变大的情况下,并且在业务部门跟IT日益紧密的趋势下,对于数据的存储与分析的速度和性能要求越来越高,对海量数据的快速、高效存储绝对应该是大数据时代存储系统的第一必备要求,否则大数据后续相关的数据分析、处理都将成为空谈。对于用户而言,寻求符合大数据时代下全新需求的存储产品就成为大势所趋。据悉,华为将于9月2号在上海世博中心举办云计算大会,其中海量存储分论坛将于9月2号下午召开,该分论坛将重点讨论大数据存储发展趋势和行业洞察。参会者将能了解到华为大数据存储战略以及大数据技术在石油、卫星测绘等行业领域的应用,对于国内想了解大数据存储相关内容的用户将会是一次难得的良机。
看清大数据趋势 不再雾里看花
在大数据时代下,大数据存储产品显然要比传统存储产品考虑更多因素,目前市场中已经有很多专门为大数据应用设计和开发的存储系统,这其中包括国内和国外诸多厂商的产品。虽然有很多产品可供大家参考和选择。但是对于用户而言,能够看清大数据基础架构的发展趋势,则可在基础架构建设方面不再雾里看花。
趋势一:容量大、易扩展。众人皆知,大数据的容量往往是PB级别,甚至有些用户的数据量开始达到EB级别,这要求未来的存储系统能够具备容量大、易扩展的特点。
趋势二:高性能。大数据的一大特征即为速度,要求存储系统能够快速存储数据,因此这要求存储系统的响应速度能够符合大数据的要求。
趋势三:多集成。大数据时代下,数据来源广泛与复杂,不同类型的数据访问、处理和分析的方式不同,这就要求大数据时代下存储系统的接口集成化,使得大数据存储系统能够应对不同的数据需求。
趋势四:自动化。由于大数据使得数据量大幅增加以及数据处理流程、方式更加复杂,给存储系统的管理、维护变得更加复杂。因此,管理自动化也是衡量大数据存储系统的重要趋势。
趋势五:安全可靠。大数据最为核心的价值所在即为数据,因此确保数据的安全可靠也是大数据存储需要重点考虑的因素。保证数据的可用性、完整性和持久化都是未来存储系统所必备的趋势。
趋势六:弹性成本。大数据并不意味着用户必须要在基础架构上一次性投入大额成本,具有弹性、可扩展的存储系统能够帮助用户实现弹性成本,让不同层面的用户都能在大数据浪潮中淘金。
综述
追本溯源,在大数据时代下,我们往往不能只将眼光盯在数据分析与处理层面,用户在尝试大数据解决方案之前,更应从全面角度去审视自身的基础架构是否适合大数据未来的需求与发展——大数据实践,基础架构先行。只有如此,方能在大数据浪潮之中淘得金!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05