京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据之路不乏荆棘密布
随着生活越来越丰富,大数据也变得越来越难以处理;同时因为数据体积增大、数据类型繁多,技术人员在分析过程中不得不克服大量的挑战和障碍。本文将讨论为什么数据会变得越来越复杂及难以管理,以及在我们分析、整合及存储这些数据时又会面临哪些挑战及障碍,当然还有大数据又会给未来带来什么样的机遇。
大数据确实很大并且很复杂
大数据究竟有多大
举个简单的例子,去参加一个小朋友的生日派对。在出发时,你会发送一个tweet说明一下,数据随之产生。车在半路上,停车加油,付款时果断产生了数据。在超市购买生日卡片,扫描购物卡、结账同样产生了数据。在生日派对中,拍个照片,录段视频,当你在Facebook、Flickr以及Youtube上发布时同样产生了数据。在派对过程中发送的消息,同样产生了数据。贯穿整个过程,你的手机因不停的发送GPS位置而产生数据,你的车因为不停的追踪燃耗而产生数据。由此可见,我们在日常行为活动中产生了大量的数据。
通过IBM了解到,我们每天大约建立2.5 quintillion(1 000
0003)字节的数据,而在过去两年建立了总数据量的90%,同时数据体积以指数的方式增加。随着公司数据捕获能力的增强、多媒体变得流行、社交媒体会话的增加以及使用互联网做更多的事情,数据的体积也不可思议的速度激增。
大数据究竟有多复杂
大数据是复杂的。之所以复杂因为数据的多样性,其中包括结构化数据和非结构化数据。大数据的复杂还在于交付和使用的速度,比如“实时”。并且,大数据的复杂还在于数据的体积。以前家用存储说的是MB和GB,现在讲的已经是TB了,而企业早已跨入PB单元。
大数据市场
大数据增加了信息管理业务的需求,比如Software AG、Oracle
Corporation、IBM、Microsoft、SAP、EMC和HP已经支付150亿美元给专门从事数据管理和分析的软件公司。在2010年,这个产业自身的价值已经超过1000亿美元,并以每年10%的速度增长着——比整个软件业务快2倍。
发达经济体让大数据密集型技术得到更广泛的使用。世界范围内,有46亿的移动终端在产生数据,有10到20亿人在访问互联网。在1990到2005期间,超过10亿人进入了中产阶级,更多富起来的人同样导致了信息的增长。在1986年,世界电信网络有效的信息交互能力为281
PB,1993年为471 PB,2000年为2.2 EB,2007年为65EB,而在2013年,预计的通信总量为667 EB。
大数据分析
大数据需求在可容忍时间内对大体积数据进行处理特殊的技术,大数据分析实践者通常不喜欢共享储存,更倾向于直接连接存储(Direct Attached Storage,DAS),在并行的内部处理节点中混合使用了高速SSD与高容量SATA磁盘。而当下的共享储存架构SAN及NAS已被扣上缓慢、复杂及昂贵的头衔,该类型架构完全不符合现下大数据技术在性能、商用服务器及低成本上的标准。
实时及近实时的信息交付已成为大数据分析的界定特征,尽可能的避免延时同样成为大数据技术的首要挑战之一。数据更希望被存储在内存中,而不是其他终端FC SAN连接的机械硬盘上。同样在大数据情景下,SAN模式下对分析应用程序的要求上比其它类型存储要高得多。
当然,共享存储在大数据分析情景下也有着自己的优势,但是自2011年以后,已不为绝大多数大数据实践者所采纳。
大数据挑战及障碍
鉴于复杂性,大数据处理面临着一系列挑战:
1. 在类似文本或视频的非结构化数据上,我们要如何去理解及使用。
2. 我们该如何在数据产生时捕获最重要的部分,并实时的将它交付给正确的人。
3. 鉴于当下的数据体积和计算能力,该如何储存、分析及理解这些数据。
4. 缺乏人才
当下讨论最多的问题就是缺乏大数据人才,值得庆幸的是许多教育机构都针对此开设了相应的学术课程。而我们也看到一些更好的现象,企业和高校合作共同对抗这个人才稀缺问题,这也是最有效的人才培养途径。
5. 其它一些固有的挑战,隐私、访问安全以及部署
通过EIU(Economist Intelligence Unit)与Lyris(数字化营销软件提供商)最新的报告“Mind the Digital Marketing Gap”了解到,37%的营销主管发现大数据解析到决策制定的转换上存在着非常大的挑战,而45%认为他们不具备有效的大数据分析能力。
24%的营销人员表示他们一直在使用大数据技术来发现见解并制定市场策略,尽管其中大多数人只是偶尔使用数据做可行性分析及个性化客户通信。
其它一些障碍还包括缺乏资金(43%的受访者)、过于强调数字工具及社交媒体、渠道的增多以及人力资源的匮乏(33%左右的受访者)。
大数据机遇
尽管当下大数据技术的应用上还存在许多的挑战,但是其中存在的机遇却远超过这些挑战。大数据成为创新、竞争及生产力提升的绝对利器,我们可以使用大数据回答以前无法解决的问题。我们可以使用大数据获得真知和知识,确定趋势及提高生产力,取得竞争优势并为世界经济创造更多的价值。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04