
大数据时代来临 如何挖掘数据中的宝藏
继云计算之后,“大数据时代”这一热词成为媒体争相追逐的焦点。那么,何为大数据,大数据价值几许?大数据时代又会给业界带来哪些机遇和挑战呢?
大数据时代悄然来临
不是我不明白,这世界变化快12000年还是一张软盘打天下的时代,短短十多年光景,硬盘的存储容量已从4GB、16GB、32GB迅速攀升到1TB。原来仅有1.44MB的软盘在当时感觉存储容量还是蛮大的,到现在硬盘容量蹿升至1TB了,反而感觉存储空间捉襟见肘,到底是哪里出现了问题?
大数据!一语惊醒梦中人,大数据时代已经悄然来临。随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富。更多的传感设备、移动终端接入到网络,由此产生的数据及增长速度迅速攀升。
一项由UnisohereResearch对531名独立Oracle用户进行的调查发现,90%的企业的数据量在迅速上涨,其中16%的企业的数据量每年增长率达到50%或更高。不少企业已经感受到失控的数据增长对绩效造成的冲击,其中87%的受访者将企业的应用程序性能下降归咎于不断增长的数据量。调研机构IDC在2011年6月的报告则显示,全球数据量在2011年已达到1.8ZB,在过去5年里增加了5倍。
1.8ZB是什么样的概念呢?首先从二进制上解读一下,从我们最熟悉的GB开始,1TB(TrillionByte)=1024GB;1PB(PetaByte)=1024TB;1EB(ExaByte)=1024PB;1ZB(ZettaByte)=1024 EB;1YB(YottaByte)=1024 ZB;1BB(BrontoByte)=1024YB。
再来直接形象地形容一下1.8ZB的数据量,如果把所有这些数据都刻录存入普通DVD光盘里,光盘的高度将等同于从地球到月球的一个半来回也就是大约720000英里。相当于每位美国人每分钟写3条Twitter微博,而且还要不停地写2.6976万年,是不是很恐怖?这还不是最恐怖的,IDC还预测全球数据量大约每两年翻一番,2015年全球数据量将达到近8ZB,到2020年,全球将达到35ZB。
所谓的大数据最直白的理解是海量数据,通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费很多时间和金钱。调研机构IDC认为,某项技术要想成为大数据技术,必须满足IBM所描述的三个“V”条件,即多样性(Variety)、大容量(Volume)和时效性高(Velocity)。多样性是指数据应包含结构化的和非结构化的数据;大容量是指聚合在一起供分析的数据量必须是非常庞大的;时效性高则是指数据处理的速度必须很快。
大数据中的大价值
现在有很多通过大数据分析受益的经典案例。在科研民生领域,美国的海啸预警系统一直为人们津津乐道,去年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型便出现在YouTube等网站。大数据分析在指导人们有效规避自然灾害面前发挥了很大的作用。
而在商业领域,eBay则很好地起到了示范作用。eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析,每天处理的数据量高达100PB,通过准确分析用户的购物行为,达到了减少广告投入、稳定高端卖家、实现持续增长的目的。
通过上述两个案例不难看到,大数据分析的价值是非常大的。伴随着传统的商业智能系统向纵深应用的拓展,企业也逐渐步入到大数据时代。传统的标准化、结构化的数据只占到15%左右,85%的数据来源于广泛存在于社交网络、物联网、电子商务等中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。
企业用来分析的数据越全面,分析的结果就越接近于真实,因此,大数据具有很大的商业价值。大数据分析是企业在未来发展过程中必须面对的,大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将它与已知业务的各个细节相融合。只有那些能够运用这些新数据形态的企业,方能打造可持续发展的竞争优势。
淘金大数据时代
云计算和大数据是2012年IT业界密切关注,且又最为火热的两大关键词,对于嗅觉相当灵敏的IT业界,很多企业早已嗅出了商机。
大数据跟普通数据一样,从产生到处理,再到价值提取,再到最后被消费掉,都有一个过程,每个步骤中都存在着不同的商业需求,目前已经有企业开始深耕细作或正在跑马圈地。
拥抱大数据时代
当大数据时代大步向我们走来的时候,企业有足够的准备来迎接这场革命吗?面对汹涌而来的大数据时代,从目前的态势来看,由于大数据的技术门槛较高,在大数据领域展开竞争的IT公司,大都仍然是在数据存储、数据分析等领域有着传统优势的厂商。而对于其他IT厂商,尽管也意识到了大数据时代的淘金价值,但是无论是土壤、理念,还是技术、市场层面,都还任重而道远。
第一,大数据的急剧蔓延使得企业在存储架构方面逐渐面临着史无前例的考验,由此引发了数据仓库、数据挖掘、商业智能、云计算等应用的一连串连锁反应。
第二,网络带宽急待升级。中国平均网速不到全球一半,带宽过小势必会成为大数据时代的瓶颈,升级带宽是目前面临的最迫切的问题。
第三,无处不在的大数据安全问题。2011年CSDN等网站大规模的数据泄露给业界上了生动的一课,如何保证大数据的安全性是又一只横亘在大数据时代发展路上的拦路虎。要通过技术的、行政的、法律的手段,全面阻击不正当应用和新型知识犯罪。
第四,大数据分析人才紧缺;大数据是海洋,分析工具是轮船,而分析人才则是舵手。只有通过掌握了分析工具的人才指引,大数据分析才能抵达成功的彼岸。目前,大数据分析门槛高,分析人才稀缺是不言的事实。
第五,大数据时代的数据学的理论和方法将改进现有的科学研究方法,形成新的科学研究方法,并且针对各个研究领域开发出专门的理论、技术和方法,从而形成专门领域的数据学,例如行为数据学、生命数据学、脑数据学、气象数据学、金融数据学、地理数据学等。
大数据时代不但会对IT业界甚至会对整个人类社会产生巨大且意义深远的影响,大到国家治理、企业决策,小到个人生活服务,都会因大数据而改变。数据的大航海时代已经来临,唯有扬帆应变才是正途……
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04