京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大时代3.0之大数据时代
有一天,美国零售企业好市多(Costco)接到了一位母亲的投诉:“我的女儿才16岁,你们却向她推销孕妇类的产品。”
但是,这一次,尴尬的是这位母亲自己,她16岁的女儿确实怀孕了。为什么卖货的商场,却能比朝夕相处的母亲,更早知道女儿的孕事?
回答这个问题,要扯上一个在2012年热透全球科技行业的关键词——大数据。
数据之大
发现自己怀孕之后,16岁的她不敢告诉母亲,只能时常在网上浏览一些和怀孕相关的网站,搜寻一些孕妇要用的东西。这些浏览行为会被当做数据记录下来,Costco的数据分析团队,会据此进行精确的商品促销定位。
向记者讲述这个故事的华为企业业务BG存储营销总监杨传斌,有很多这样的故事。
“最近我们中标了山东移动,运营商对大数据的需求是相当的迫切和强烈。”杨传斌说,对用户的话费清单进行分析,不管是对用户还是对运营商自己都能带来很大的价值。
首先,从用户层面看,用户查询到自己每月的话费单后,面对一长串的数字,往往无所适从。他们需要知道的是,自己这个月漫游多还是本地电话多,接电话多还是打出电话多,哪些是自己联系最多的人。
其次,从运营商层面来看,山东移动有数千万客户,怎样发掘这些用户的共性消费特征,制订出符合用户需求的资费套餐,是一个很大的学问。
而这些都有赖于引入大数据的存储系统和分析系统。“部署大数据,一方面可以增加客户的黏度,另一方面可以降低运营成本,有的资费套餐只有很少人用,却还要为它维持一整套系统。”杨传斌向记者透露,华为的大数据解决方案已经在电信领域有了很多成功案例。
“大数据”的风靡一时,归根结底还是因为人类社会数据量的几何级增长。
“根据我们的跟踪,每18个月新产生的数据量是过去所有历史数据的总和。”杨传斌说,尽管公众接触到大数据这个概念是最近一两年的事,但在业界,这个词早在上世纪60年代就已经出现。
从那时候到现在,人类对数据的应用主要经历了三个阶段。
第一个阶段被称为关键应用部署阶段,时间从上世纪60年代到80年代早期,当时的主要用户是企业,主要是在大型机上部署财务、银行等关键应用系统,存储介质包括磁盘、磁带、光盘等。
这些数据很关键,很重要,尽管当时人们称之为大数据,但从现在看来,这些数据的量是很有限的,这从上述存储介质的出货量增长上就能看出来。
第二个阶段是企业自动化阶段,标志是PC的出现和大量应用,企业内部出现了很多以办公文档为主要形式的数据,包括office文档、Excel文档,以及后来的图片、图像、影像和音乐等。这时候,产生数据的不仅仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据量的增长。
互联网的兴起为数据的第三次大规模增长插上了翅膀,在这个阶段,产生数据的人更加扩展了,不光是企业的办公人员,几乎全民都在制造数据。与此同时,数据的形式也极大丰富,各种应用层出不穷,既有视频、微博、博客等主动产生的数据,也有搜索、浏览网页等被动行为过程中被记录、搜集的数据。
杨传斌说,发展到今天,这些数据已经呈现指数级的增长。目前全球性的科技公司都要和PB级规模的数据打交道,而Facebook每天要存储大约100TB的用户数据,NASA(美国国家航空航天局)每天要处理约24TB的数据。
这些用来存储数据信息的单位可能比较抽象,拿人们熟悉的兆(MB)来做参照,1024个MB是1个GB,1024个GB是1个TB,1024个TB是1个PB,1024个PB是1个EB,1024个EB是1个ZB。举个例子来说,欧洲物理对撞机每年会产生28PB的数据规模。
杨传斌说,目前全球每年产生的数据量是ZB级,到2015年会达到35个ZB。
商业机会
数据无处不在,并通过各种可能的方式影响着企业业务和每个人的生活。但某种程度上,这又是一个很容易陷入行话堆砌和承诺陷阱的领域,尤其是最近一两年来,随着“大数据”成为科技热词,各路厂商纷纷从自己的角度出发,推介自己形形色色的大数据产品和解决方案。一时之间,赶时髦者有之,新瓶装旧酒者有之。
“华为目前推出的大数据存储产品,比如N8000、CSS等就具有这样的特征。”杨传斌说,作为高性能存储的一个指标,华为的大数据解决方案在最近的一项测试中达到了300万OPS。这是衡量存储性能的一个指标,意思是每秒钟能进行300万个操作。
杨传斌向记者透露,华为的这些大数据存储已经在国内外有了很多客户,除了前文提及的Costco、山东移动、欧洲核子研究中心(CERN),还包括工商银行、全球最大的体育视频节目制作公司IMG等。前者希望从客户的存储中挖掘投资习惯,并向客户针对性地推荐理财产品;后者对分布式动态视频渲染有着很大的需求。
“除了存在那里,大数据主要还是要给存储数据的用户或者是最终的使用者带来价值。”杨传斌对记者表示,对于如何从数据中发现价值,业界有很多不一样的技术,其中最主要的是以Hadoop为基础建立的一整套分析体系。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,主要来源于开源社区。杨传斌说,这个体系由众多的自由贡献者、部分厂商,通过开源的方式提供出来供大家自由使用,华为在其中也贡献了自己的计算分析和存储技术。
截至目前,无论是英特尔、IBM、EMC这样的基础架构厂商,还是微软、SAP、甲骨文这样的应用软件厂商,都推出了支持Hadoop或者基于Hadoop的产品线,以应对市场对于大数据的需求。
“华为也会在Hadoop的体系内提供接口,和整个大数据的分析领域对接起来。”杨传斌说,Hadoop对于IT业界来说,除了存储,还可以在计算、分析、数据调度等方面为企业带来商机。
著名市场研究公司Gartner在2012年10月发布的一份研究报告称,在2012年,大数据对全球IT开支的直接或间接推动达960亿美元,而到2016年,这一数字预计将达到2320亿美元。
基于大数据的分析,未来会在社会的方方面面得到应用。比如,通过遍布各地的电子眼和监控摄像头,警务系统可以基于大数据识别一些危险的人或危险的行为,发现苗头进行预警。
再比如,现在几乎没有人可以离开手机,而手机信号的大数据使用,未来甚至可以用于控制交通流量,通过车上的GPS和手机,当交通进入拥堵状态,就通过手机提示你进入某个路段要收费,如果执意进入,费用就从手机上直接自动收取了,这就避免了现在在各个路口设卡刷卡的做法所带来的麻烦。
“这些都是和政府的政策相关,技术上已经完全能实现,只不过政策上怎么部署的问题。”杨传斌说。
格局未定
“大数据还刚刚开始,可以说还没有形成格局。”杨传斌认为,截至目前,也还没有一个完全独立的大数据市场来作为样本分析。
谈到市场竞争,杨传斌表示,“从国内来讲,华为在大数据领域遇到的竞争还是比较少的,因为其他厂商还不太关注中国市场的大数据;从海外来讲,大数据解决方案提供商涵盖传统基础架构厂商、新兴软件厂商和一些基于开源平台的厂商,提供大数据收集、存储、提取、分类、分析、报表、商业智能等某几方面的功能模块。”
事实上,存储巨头EMC对大数据也一直在摇旗呐喊。EMC董事长、总裁兼首席执行官乔·图斯曾对记者表示,大数据已不仅停留于概念,数据大爆炸催生了社会各界对数据分析的需求。他还预测,大数据的发展必将影响职场,未来,拥有一个数据科学(DataScience)学位将比拥有一个计算机科学(ComputerScience)学位更有市场。
在华为看来,大数据解决方案和传统IT相比面临一些新的挑战,首先,大数据应用的数据量很大,并且是有一个逐步积累的过程,要求无论是存储能力和计算能力都需要按需可扩展;其次,大数据由于数据体量庞大,数据移动面临困难,要求应用程序就近计算,结果输出;第三,存储面临着成本压力问题,重删、备份及归档一体,可大幅降低存储成本。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05