京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代:大数据中的大价值_数据分析师
继云计算之后,“大数据时代”这一热词成为媒体争相追逐的焦点。那么,何为大数据,大数据价值几许 大数据时代又会给业界带来哪些机遇和挑战呢
大数据时代悄然来临
不是我不明白,这世界变化快12000年还是一张软盘打天下的时代,短短十多年光景,硬盘的存储容量已从4GB、16GB、32GB迅速攀升到1TB。原来仅有1.44MB的软盘在当时感觉存储容量还是蛮大的,到现在硬盘容量蹿升至1TB了,反而感觉存储空间捉襟见肘,到底是哪里出现了问题
大数据!一语惊醒梦中人,大数据时代已经悄然来临。随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富。更多的传感设备、移动终端接入到网络,由此产生的数据及增长速度迅速攀升。
一项由UnisohereResearch对531名独立Oracle用户进行的调查发现,90%的企业的数据量在迅速上涨,其中16%的企业的数据量每年增长率达到50%或更高。不少企业已经感受到失控的数据增长对绩效造成的冲击,其中87%的受访者将企业的应用程序性能下降归咎于不断增长的数据量。调研机构IDC在2011年6月的报告则显示,全球数据量在2011年已达到1.8ZB,在过去5年里增加了5倍。
1.8ZB是什么样的概念呢 首先从二进制上解读一下,从我们最熟悉的GB开始,1TB(TrillionByte)=1024GB;1PB(PetaByte)=1024TB;1EB(ExaByte)=1024PB;1ZB(ZettaByte)=1024 EB;1YB(YottaByte)=1024 ZB;1BB(BrontoByte)=1024YB。
再来直接形象地形容一下1.8ZB的数据量,如果把所有这些数据都刻录存入普通DVD光盘里,光盘的高度将等同于从地球到月球的一个半来回也就是大约720000英里。相当于每位美国人每分钟写3条Twitter微博,而且还要不停地写2.6976万年,是不是很恐怖 这还不是最恐怖的,IDC还预测全球数据量大约每两年翻一番,2015年全球数据量将达到近8ZB,到2020年,全球将达到35ZB。
所谓的大数据最直白的理解是海量数据,通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费很多时间和金钱。调研机构IDC认为,某项技术要想成为大数据技术,必须满足IBM所描述的三个“V”条件,即多样性(Variety)、大容量(Volume)和时效性高(Velocity)。多样性是指数据应包含结构化的和非结构化的数据;大容量是指聚合在一起供分析的数据量必须是非常庞大的;时效性高则是指数据处理的速度必须很快。
大数据中的大价值
现在有很多通过大数据分析受益的经典案例。在科研民生领域,美国的海啸预警系统一直为人们津津乐道,去年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型便出现在YouTube等网站。大数据分析在指导人们有效规避自然灾害面前发挥了很大的作用。
而在商业领域,eBay则很好地起到了示范作用。eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析,每天处理的数据量高达100PB,通过准确分析用户的购物行为,达到了减少广告投入、稳定高端卖家、实现持续增长的目的。
通过上述两个案例不难看到,大数据分析的价值是非常大的。伴随着传统的商业智能系统向纵深应用的拓展,企业也逐渐步入到大数据时代。传统的标准化、结构化的数据只占到15%左右,85%的数据来源于广泛存在于社交网络、物联网、电子商务等中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。
企业用来分析的数据越全面,分析的结果就越接近于真实,因此,大数据具有很大的商业价值。大数据分析是企业在未来发展过程中必须面对的,大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将它与已知业务的各个细节相融合。只有那些能够运用这些新数据形态的企业,方能打造可持续发展的竞争优势。
淘金大数据时代
云计算和大数据是2012年IT业界密切关注,且又最为火热的两大关键词,对于嗅觉相当灵敏的IT业界,很多企业早已嗅出了商机。以投资Facebook而闻名的风投公司AccelPartners认为:大数据是信息技术未来发展的战略走向,将催生下一代价值数万亿美元的软件企业。
大数据跟普通数据一样,从产生到处理,再到价值提取,再到最后被消费掉,都有一个过程,每个步骤中都存在着不同的商业需求,目前已经有企业开始深耕细作或正在跑马圈地。
首先是雅虎的大数据系统Hadoop,它已经在大数据时代崭露头角,因它提供了廉价的大数据分析处理功能,从而被业界冠以打开数据之门的金钥匙。Hadoop能将大数据分解成多个子问题,将它们分配到成百上千个处理节点之上,能够在最短的时间内处理海量的数据,最后再将处理结果汇集到一个小数据库集中,从而更容易分析并得出最后的结果。Hadoop已经成为AOL、Facebook和Twitter这些公司进行大数据分析的主要提供商。一批著名的大企业如谷歌、雅虎、JP摩根大通等,也成功利用Hadoop开发出了开源的大数据管理系统。不仅如此,微软也向Hadoop抛出了橄榄枝,并且决定将Hadoop作为自身大数据战略的核心。Hadoop的明星范儿,让人们看到了Hadoop在解决大数据难题时的巨大潜力。
其次,IBM凭借在硬件与软件方面的优势,提供端到端、整体的大数据解决方案。此外,在数据存储、分析等领域有着传统优势的厂商,如惠普、甲骨文等公司,在大数据分析领域也有着明显的优势。2011年10月,甲骨文发布了新版NoSQL数据库企业版,这是运行于Hadoop之上的大数据软件之一。除了花大力气开发自有技术,更多的企业希望通过合作与并购的方式来迅速弥补技术链条上的不足。微软宣布与Hortonwork公司建立新的合作伙伴关系,后者致力于Hadoop开发。为了增强非传统数据分析的能力,Teradata收购了Aster Data公司。在2011年,面对高速增长的大数据分析,IBM提出了“智慧的运算”,其内容包含大规模数据整合、优化的系统,以及云计算等新兴服务交付模式。伴随着全新的zEnterprise 114大型机产品的发布,zEnterprise System企业级大型机已经作为“系统中的系统”来全面实现“智慧的运算”。
最后回头再来看看微软为业界带来的SQL Server 2012。SOL Server 2012着眼于企业不断增长的大数据、多样化分析需求,以打造一个能够处理大数据和智能的云平台,帮助企业形成一种可执行的洞察力,解决数据飞速增长这一难题。
刚刚发布的SQL Server2012,相比以前的版本主要有如下三项重大的更新:一是能够更好地支持大规模关键应用,通过AlwaysOn集成高可用的灾难恢复解决方案,帮助企业大大减少计划性停机和非计划性停机时间,为大中小企业提供最强的支持;二是更为强大、灵活的分析,通过PowerView和PowerPivot实现快速的数据发现,基于Excel的PowerPivot让用户可以方便地连接不同的数据源和对数据进行混搭,PowerView则允许用户使用拖曳式界面进行数据浏览;三是按需而“云”,全面支持云技术与平台,能够快速构建相应的解决方案,实现私有云与公有云之间数据的扩展与应用的迁移,保证传统应用、私有云、公有云协同工作的灵活性。SQL Server 2012支持灵活的迁移应用,从传统应用到虚拟化部署,使用户可以根据需要自由拓展,按需而“云”。
拥抱大数据时代
当大数据时代大步向我们走来的时候,企业有足够的准备来迎接这场革命吗 面对汹涌而来的大数据时代,从目前的态势来看,由于大数据的技术门槛较高,在大数据领域展开竞争的IT公司,大都仍然是在数据存储、数据分析等领域有着传统优势的厂商。而对于其他IT厂商,尽管也意识到了大数据时代的淘金价值,但是无论是土壤、理念,还是技术、市场层面,都还任重而道远。
第一,大数据的急剧蔓延使得企业在存储架构方面逐渐面临着史无前例的考验,由此引发了数据仓库、数据挖掘、商业智能、云计算等应用的一连串连锁反应。
第二,网络带宽急待升级。中国平均网速不到全球一半,带宽过小势必会成为大数据时代的瓶颈,升级带宽是目前面临的最迫切的问题。
第三,无处不在的大数据安全问题。2011年CSDN等网站大规模的数据泄露给业界上了生动的一课,如何保证大数据的安全性是又一只横亘在大数据时代发展路上的拦路虎。要通过技术的、行政的、法律的手段,全面阻击不正当应用和新型知识犯罪。
第四,大数据分析人才紧缺;大数据是海洋,分析工具是轮船,而分析人才则是舵手。只有通过掌握了分析工具的人才指引,大数据分析才能抵达成功的彼岸。目前,大数据分析门槛高,分析人才稀缺是不言的事实。
第五,大数据时代的数据学的理论和方法将改进现有的科学研究方法,形成新的科学研究方法,并且针对各个研究领域开发出专门的理论、技术和方法,从而形成专门领域的数据学,例如行为数据学、生命数据学、脑数据学、气象数据学、金融数据学、地理数据学等。
大数据时代不但会对IT业界甚至会对整个人类社会产生巨大且意义深远的影响,大到国家治理、企业决策,小到个人生活服务,都会因大数据而改变。数据的大航海时代已经来临,唯有扬帆应变才是正途……
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16