数据大未必是大数据三谈大数据时代_数据分析师-CDA数据分析师官网

热线电话：13121318867

数据大未必是大数据三谈大数据时代_数据分析师

2014-12-28

数据大未必是大数据三谈大数据时代_数据分析师

前不久写了一篇《迎接大数据时代》的文章，发表后颇有反响。一些朋友找我去开这方面的会，一些媒体采访发这方面的文章，一些资本想找这方面的项目投入。这可有点似曾相识燕归来的感觉了。当年写过关于WEB2.0革命，写过网络平台，写过开放，业内和社会上也都有过类似反应，想搭顺风车，混吃混喝的大有人在。为了避免以往悲剧的产生，减少鱼龙混杂，以假乱真的现象，只好多写几篇这方面的感想，权作免责条款吧。

　　极而言之，如果全世界网民的网络行为记录都能紧密整合在一起，那当然称得起大数据这个名称。反之，如果只有一个网民的一条孤零零网络记录，那当然撑不起大数据这个概念。问题在于如何在这两个极端之间，找到一个划分大数据与否的区分点，或者找到一组指标，能够具体衡量数据量从量变到质变的相对标准。这无论在学术研究上或是在商业实战上都很重要。试想若是某个公司自认为自己网络服务产生的数据量很大，觉得可以自称大数据公司了。于是说服董事会和投资者加大这方面的投入，购买大批专用设备和第三方专业服务，组建这方面的团队。经过一段时间的实践，发现投入产出不成比例，建立在大数据基础上的商业模式和产品服务研发不能得到理想的回报，那岂不是个悲剧？

　　以我的观察和实践经验，网络业中一个公司是否称得起拥有大数据至少要从三个维度考量：

　　数据规模----所谓大数据最基本的要求当然是数据规模大，但很难给出一个绝对的数字标准来确定大小，而只能用一些模糊的感觉来相对比较。例如，一个公司在年度预算中有了专门的，显著的数据存储和分析预算（例如，总预算的3-5%），有了独立的数据处理和分析部门，有了比较完整的数据存储，安全和保密政策与管理流程，有了高度依赖数据分析结果的商业模式，那么，可以说这个公司面临着利用大数据的机会或挑战了。

　　数据结构----数据量只是反映数据性质的一个指标，也许还不是最重要的指标。一天产生一百万个T数据的公司也许算不上大数据公司，而另一个一天只产生一万个T数据的公司也许反而是个大数据公司，其奥妙在于数据结构的复杂性。例如，A公司拥有一亿用户，但用户在A公司网站上只干一件事或一类事，比如获取新闻资讯，买买东西，或者玩玩游戏。那么由此产生的数据量虽然不小，但结构简单，重复性高，分析起来很容易，无非就是根据用户背景和使用习惯分分组，归归类，简单数据挖掘基本功足够，扯什么大数据就有点故弄玄虚了。B公司只有一千万用户，却是个开放平台，用户在此可以干互联网能够支持的所有事情，网络行为又可分为个人，群体，组织等层次，那么这个数据的结构就够复杂，能够支持深度挖掘和复杂建模，因而就可以算作大数据。

　　数据关联度----网络业一个常见现象就是随着数据量的增加，用户行为所产生的数据间的关系越来越不清晰，越来越难以捉摸，越来越相互孤立，也就是所谓的数据碎片化。这种碎片化主要来自两个方面：一是网站结构碎片化，逻辑混乱化，各种产品与服务之间相互孤立化，因而导致数据之间关系断裂，关联度很低。例如，明明是同一个用户在一个网站上使用了十种不同的产品和服务，但由于其中五种无需注册使用，其他五种又需要分别注册使用，结果这十种网络行为的数据无法整合在一起，或者需要通过种种技术手段和工具进行高成本的数据整合，以至于入不敷出。这也就减少了数据的含金量，降低了数据的可挖掘度，使得无论数据量如何大，结构如何复杂，也形成不了大数据。反之，如果一个WEB2.0时代的开放平台，架构清晰，逻辑分明，用户与用户，用户与用户行为，行为与行为之间都具有确定的关联性，那么这样的数据就具有极高的含金量，极高的分析挖掘价值，也就可以形成大数据。

　　所以，简而言之，大数据与否取决于数据规模，结构复杂性和关联性，简单地说某个公司的数据量大并不等于说这个公司具备拥有和利用大数据的前景。例如，直到google+诞生前，谷歌就不能声称自己是个大数据公司，因为它的海量搜索数据虽然规模庞大，但结构简单。尽管听说它的搜索算法已经囊括了六万多个变量，成千上万的数学和统计学模型，上千的博士和工程师参与分析，但在数据挖掘深度，搜索结果个人化，搜索结果与广告之间的相关度上进展有限，只有改良，没有突破。更严重的是，谷歌数百个产品和服务之间相互关联度极低，各干各的，无数数据库互不相干。各个部门之间以邻为壑，互不配合，更不整合。所以，面对以FACEBOOK和苹果为代表的WEB2.0时代以及由此产生的大数据战略机会，谷歌若干年来束手无策，只能靠不断扩展产品线对付。如果直到两年前谷歌还算不上大数据公司，那些自认为自己有点数据，或者会点加减乘除，或者以为掌握一些基本的数据库技术和KNOWHOW就可以招摇过市，到网络业和资本界呼风唤雨，是不是有点不知深浅，过于幼稚了呢？

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

大数据数据挖掘数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇“大数据”的便利与“暴政”_数据分析师

下一篇大数据做西装，敢做吃螃蟹第一人_数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据大未必是大数据三谈大数据时代_数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

数据大未必是大数据 三谈大数据时代_数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

数据大未必是大数据三谈大数据时代_数据分析师