京公网安备 11010802034615号
经营许可证编号:京B2-20210330
全民大数据时代已不远_数据分析师考试
大数据的神奇令人惊叹,不过要面对超爆发式的数据增长,企业往往要支付超高额的数据存储费用,因此大数据产业仅仅集中在超大型、垄断型企业,不过在日前举行的2015上海大数据产业高端峰会上,肯睿中国区副总裁苗凯翔介绍了一种名为Hadoop的技术,通过重塑数据构架,它在一定程度上解决了大数据发展的成本之痛。而今,全球大数据生态圈中,Hadoop已经成为最为核心的技术。
存储成本阻碍大数据发展
数据量的快速增长,是IT业面临的重大挑战。统计显示,人类迄今为止存储的数据中,90%以上是最近两年新产生的,这种数据爆炸的趋势还将延续。“到2020年,互联网设备的总数将达到500亿部,数据总量将达到40ZB(1ZB=十万亿亿字节)。”苗凯翔说,这大约是人类现在需要处理信息量的10到20倍,换句话说,年均增长超过40%。
数据量快速增长,要求数据处理能力同步提高,但多数企业却因为预算不足而难以招架。以美国主要的四家银行为例,它们每年新增的数据量大致是40PB(1PB=100万GB),仅仅为存储这些数据,每年就必须增加3.2亿美元的投入。
“钱是主要问题。”苗凯翔说。事实上,为了应对40%的数据增速,企业在IT系统方面的预算必须以4%的年率增长,但实际上这块预算的增速很难超过1%。由于投入不足,银行不得不放慢推进大数据业务的速度,比如推广手机银行。
开源模式推动大数据发展
奥巴马政府把大数据比作“未来的新石油”,不过静静流淌的石油并没有价值,只有经过勘探、钻井、提炼、加工成石化产品,其商业价值才能体现。当下,关于大数据说得多做得少,正是由于开采工具不足。苗凯翔认为,要改变这一现象,必须从更深层次理解数据在当今时代意味着什么。
在过去,数据主要驻留在结构化的交易数据库里,结构是固定的,比如企业数据仓库用来产生运营报告;存储系统用来保留数据的有效和安全;搜索系统通过Web搜索引擎来寻找和探索信息……这都是一个个“地窖”,当需要计算时,就将“地窖”中的一部分数据送到计算机处。
不过这种方式只能进行少量、低频率的计算,想要应对当今的数据量、数据多样性和数据生成速度,旧的数据构架显然难以为继。“因为数据的属性已经改变,所以数据构架也一定要变。”苗凯翔说。
10年前,大数据概念还未问世,雅虎公司的技术人员就注意到了这个问题,并由此开发出基于互联网架构的数据处理技术,并以他3岁儿子的棕黄色大象玩具之名将其命名为Hadoop,如今这一开源技术已经成为大数据生态圈的核心。
“它是开源的,能够更高效地处理信息,而且支持标准化存储设备的无限扩容。”苗凯翔说。以国有四大银行为例,一个由53台PC机组成的大数据平台能够支持并发用户30万个,而此前的数量是300个。这样一套系统的使用成本不到原来的1/3。
小微企业为大数据开发注入新活力
Hadoop平台孕育了多家大数据商业开放公司,论规模和影响力,肯睿是其佼佼者,这家公司在全球已经拥有1300家合作伙伴,市值超过50亿美元。去年9月,肯睿(上海)软件有限公司完成注册,目前已有30多名员工。
一直以来,受限于高昂的服务器成本,大数据产业仅仅集中在电信、能源、证券、烟草等超大型、垄断型企业,利用开源性的Hadoop平台,就是淘宝店主也能享受到大数据带来的好处。“我们有免费版本,只要经过简单培训,并愿意共享你的数据,就能使用这个平台。”苗凯翔说。
小微企业的加入或许能为目前发展有些缓慢的大数据注入新的活力。因为根据以往全球的经验来看,企业规模稍大一些,就不太愿意分享自己的数据,而小企业主往往更愿意走出这一步。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21