京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据还是太多信息
移动互联网时代的数据正在疯长,大数据是现在技术界最热的流行语之一。一种普遍的观点认为掌握实时数据分析与决策能力者必能占得先机,但也有人认为数据再多也无法帮助我们预测未来,我们把这两种观点编译如下,也请大家谈谈自己的看法。
我们都知道现在地球上的信息太多,但是怎么多法,没有人知道。
IBM负责超级计算机研发的Dave Turek给了我们一个答案,根据IBM的估算,人类自有史以来至2003年所创造的信息量为5艾字节(50亿GB),而到了去年,人类每两天就产生了如此多的信息量。据Turek的预测,到明年的时候,我们生成这样规模的信息量只需要10分钟!
这怎么可能?!数据为何滥生到了这种地步?这么说吧,每次你的手机发送其GPS位置,每次你在网上买东西,每次你点击社交网络上的“喜欢”,你就给数字信息的海洋奉献了一个水滴。现在这片海洋大部分已经为此类数据所覆盖。
短信、客户记录、ATM交易、监控摄像……这条清单可以列得很长。我们有一个流行语总结这些东西:“大数据”,尽管这个词难以表述我们所创造的这个怪物的规模。
这是技术超出我们使用能力的一个最新例子。在这个例子里,我们还没能跟上自己捕捉信息的能力,所以这段时间管理大师总喜欢说未来属于能善用自己所收集数据的公司,尤其是具备实时利用能力者。
对于企业来说,能够解析自己客户的每一个数字化的蛛丝马迹者必将拥有领先优势,这种能力不仅仅在于能够了解过去几个小时里谁在哪里买了什么东西,而且还能够知悉他们是否对此发表了微博、有没有在社交网络上发过相关相片。
城市亦是如此。能够收集成千上万个传感器的数据,然后描绘出都市的数字化地图,并能够将城市生活的异常行为(如交通流量)变成科学的一定能够脱颖而出。
不奇怪的是,政治运动也已经开始这样的尝试,发疯地挖掘数据已经成为政客聚焦“纳米定位(nanotargeting)”选民策略的一部分,这样才能够精准地知道如何才能捞到选票。
寻求对零碎数据进行解释的狂热解释了Google上周为什么要开始销售一款名为BigQuery的产品,该软件可以在数秒钟之内扫描几TB的信息。也正因为此,数据分析初创公司Splunk上市首日的股价即飙升了90%。
数据科学家的崛起
但是,哪怕你拥有最好的数据解密工具也不能保证就能拥有大智慧。很少有公司拥有专门受训的员工,缺乏评估堆积如山的数据(包括数百万社交网络页面、智能手机上的非结构数据)的能力,更不用说对此做些什么。
去年麦肯锡发布了一份报告,把“大数据”形容为“创新的下一个前沿阵地”,但该机构同时也预测说到2018年,美国公司在这方面将会出现严重的人才短缺,具备必要的分析技能的人才缺口多达19万之巨。同时还认为美国具备数据知识的经理的需求将会超过150万(中国呢?)。
信息超载?
尽管如此,并非所有人都相信大数据的魔力。沃顿商学院的Peter Fader教授并不认为数据越多越好。同时他也不认为企业应该竭尽所能去了解自己的客户。他认为现在对数据聚合的关注太多了,而实际上,只有围绕着真正的分析进行的数据收集量才有意义。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11在CDA(Certified Data Analyst)数据分析师的实操体系中,统计基本概念是不可或缺的核心根基,更是连接原始数据与业务洞察的关 ...
2026-02-11在数字经济飞速发展的今天,数据已成为核心生产要素,渗透到企业运营、民生服务、科技研发等各个领域。从个人手机里的浏览记录、 ...
2026-02-10在数据分析、实验研究中,我们经常会遇到小样本配对数据的差异检验场景——比如同一组受试者用药前后的指标对比、配对分组的两组 ...
2026-02-10在结构化数据分析领域,透视分析(Pivot Analysis)是CDA(Certified Data Analyst)数据分析师最常用、最高效的核心实操方法之 ...
2026-02-10在SQL数据库实操中,字段类型的合理设置是保证数据运算、统计准确性的基础。日常开发或数据分析时,我们常会遇到这样的问题:数 ...
2026-02-09