京公网安备 11010802034615号
经营许可证编号:京B2-20210330
全民大数据时代已不远_数据分析师考试
大数据的神奇令人惊叹,不过要面对超爆发式的数据增长,企业往往要支付超高额的数据存储费用,因此大数据产业仅仅集中在超大型、垄断型企业,不过在日前举行的2015上海大数据产业高端峰会上,肯睿中国区副总裁苗凯翔介绍了一种名为Hadoop的技术,通过重塑数据构架,它在一定程度上解决了大数据发展的成本之痛。而今,全球大数据生态圈中,Hadoop已经成为最为核心的技术。
存储成本阻碍大数据发展
数据量的快速增长,是IT业面临的重大挑战。统计显示,人类迄今为止存储的数据中,90%以上是最近两年新产生的,这种数据爆炸的趋势还将延续。“到2020年,互联网设备的总数将达到500亿部,数据总量将达到40ZB(1ZB=十万亿亿字节)。”苗凯翔说,这大约是人类现在需要处理信息量的10到20倍,换句话说,年均增长超过40%。
数据量快速增长,要求数据处理能力同步提高,但多数企业却因为预算不足而难以招架。以美国主要的四家银行为例,它们每年新增的数据量大致是40PB(1PB=100万GB),仅仅为存储这些数据,每年就必须增加3.2亿美元的投入。
“钱是主要问题。”苗凯翔说。事实上,为了应对40%的数据增速,企业在IT系统方面的预算必须以4%的年率增长,但实际上这块预算的增速很难超过1%。由于投入不足,银行不得不放慢推进大数据业务的速度,比如推广手机银行。
开源模式推动大数据发展
奥巴马政府把大数据比作“未来的新石油”,不过静静流淌的石油并没有价值,只有经过勘探、钻井、提炼、加工成石化产品,其商业价值才能体现。当下,关于大数据说得多做得少,正是由于开采工具不足。苗凯翔认为,要改变这一现象,必须从更深层次理解数据在当今时代意味着什么。
在过去,数据主要驻留在结构化的交易数据库里,结构是固定的,比如企业数据仓库用来产生运营报告;存储系统用来保留数据的有效和安全;搜索系统通过Web搜索引擎来寻找和探索信息……这都是一个个“地窖”,当需要计算时,就将“地窖”中的一部分数据送到计算机处。
不过这种方式只能进行少量、低频率的计算,想要应对当今的数据量、数据多样性和数据生成速度,旧的数据构架显然难以为继。“因为数据的属性已经改变,所以数据构架也一定要变。”苗凯翔说。
10年前,大数据概念还未问世,雅虎公司的技术人员就注意到了这个问题,并由此开发出基于互联网架构的数据处理技术,并以他3岁儿子的棕黄色大象玩具之名将其命名为Hadoop,如今这一开源技术已经成为大数据生态圈的核心。
“它是开源的,能够更高效地处理信息,而且支持标准化存储设备的无限扩容。”苗凯翔说。以国有四大银行为例,一个由53台PC机组成的大数据平台能够支持并发用户30万个,而此前的数量是300个。这样一套系统的使用成本不到原来的1/3。
小微企业为大数据开发注入新活力
Hadoop平台孕育了多家大数据商业开放公司,论规模和影响力,肯睿是其佼佼者,这家公司在全球已经拥有1300家合作伙伴,市值超过50亿美元。去年9月,肯睿(上海)软件有限公司完成注册,目前已有30多名员工。
一直以来,受限于高昂的服务器成本,大数据产业仅仅集中在电信、能源、证券、烟草等超大型、垄断型企业,利用开源性的Hadoop平台,就是淘宝店主也能享受到大数据带来的好处。“我们有免费版本,只要经过简单培训,并愿意共享你的数据,就能使用这个平台。”苗凯翔说。
小微企业的加入或许能为目前发展有些缓慢的大数据注入新的活力。因为根据以往全球的经验来看,企业规模稍大一些,就不太愿意分享自己的数据,而小企业主往往更愿意走出这一步。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05