数据大未必是大数据三谈大数据时代 -CDA数据分析师官网

热线电话：13121318867

数据大未必是大数据三谈大数据时代

2015-10-02

数据大未必是大数据三谈大数据时代

极而言之，如果全世界网民的网络行为记录都能紧密整合在一起，那当然称得起大数据这个名称。反之，如果只有一个网民的一条孤零零网络记录，那当然撑不起大数据这个概念。问题在于如何在这两个极端之间，找到一个划分大数据与否的区分点，或者找到一组指标，能够具体衡量数据量从量变到质变的相对标准。这无论在学术研究上或是在商业实战上都很重要。试想若是某个公司自认为自己网络服务产生的数据量很大，觉得可以自称大数据公司了。于是说服董事会和投资者加大这方面的投入，购买大批专用设备和第三方专业服务，组建这方面的团队。经过一段时间的实践，发现投入产出不成比例，建立在大数据基础上的商业模式和产品服务研发不能得到理想的回报，那岂不是个悲剧？

以我的观察和实践经验，网络业中一个公司是否称得起拥有大数据至少要从三个维度考量：

数据规模----所谓大数据最基本的要求当然是数据规模大，但很难给出一个绝对的数字标准来确定大小，而只能用一些模糊的感觉来相对比较。例如，一个公司在年度预算中有了专门的，显著的数据存储和分析预算（例如，总预算的3-5%），有了独立的数据处理和分析部门，有了比较完整的数据存储，安全和保密政策与管理流程，有了高度依赖数据分析结果的商业模式，那么，可以说这个公司面临着利用大数据的机会或挑战了。

数据结构----数据量只是反映数据性质的一个指标，也许还不是最重要的指标。一天产生一百万个T数据的公司也许算不上大数据公司，而另一个一天只产生一万个T数据的公司也许反而是个大数据公司，其奥妙在于数据结构的复杂性。例如，A公司拥有一亿用户，但用户在A公司网站上只干一件事或一类事，比如获取新闻资讯，买买东西，或者玩玩游戏。那么由此产生的数据量虽然不小，但结构简单，重复性高，分析起来很容易，无非就是根据用户背景和使用习惯分分组，归归类，简单数据挖掘基本功足够，扯什么大数据就有点故弄玄虚了。B公司只有一千万用户，却是个开放平台，用户在此可以干互联网能够支持的所有事情，网络行为又可分为个人，群体，组织等层次，那么这个数据的结构就够复杂，能够支持深度挖掘和复杂建模，因而就可以算作大数据。

数据关联度----网络业一个常见现象就是随着数据量的增加，用户行为所产生的数据间的关系越来越不清晰，越来越难以捉摸，越来越相互孤立，也就是所谓的数据碎片化。这种碎片化主要来自两个方面：一是网站结构碎片化，逻辑混乱化，各种产品与服务之间相互孤立化，因而导致数据之间关系断裂，关联度很低。例如，明明是同一个用户在一个网站上使用了十种不同的产品和服务，但由于其中五种无需注册使用，其他五种又需要分别注册使用，结果这十种网络行为的数据无法整合在一起，或者需要通过种种技术手段和工具进行高成本的数据整合，以至于入不敷出。这也就减少了数据的含金量，降低了数据的可挖掘度，使得无论数据量如何大，结构如何复杂，也形成不了大数据。反之，如果一个WEB2.0时代的开放平台，架构清晰，逻辑分明，用户与用户，用户与用户行为，行为与行为之间都具有确定的关联性，那么这样的数据就具有极高的含金量，极高的分析挖掘价值，也就可以形成大数据。

所以，简而言之，大数据与否取决于数据规模，结构复杂性和关联性，简单地说某个公司的数据量大并不等于说这个公司具备拥有和利用大数据的前景。例如，直到google+诞生前，谷歌就不能声称自己是个大数据公司，因为它的海量搜索数据虽然规模庞大，但结构简单。尽管听说它的搜索算法已经囊括了六万多个变量，成千上万的数学和统计学模型，上千的博士和工程师参与分析，但在数据挖掘深度，搜索结果个人化，搜索结果与广告之间的相关度上进展有限，只有改良，没有突破。更严重的是，谷歌数百个产品和服务之间相互关联度极低，各干各的，无数数据库互不相干。各个部门之间以邻为壑，互不配合，更不整合。所以，面对以FACEBOOK和苹果为代表的WEB2.0时代以及由此产生的大数据战略机会，谷歌若干年来束手无策，只能靠不断扩展产品线对付。如果直到两年前谷歌还算不上大数据公司，那些自认为自己有点数据，或者会点加减乘除，或者以为掌握一些基本的数据库技术和KNOWHOW就可以招摇过市，到网络业和资本界呼风唤雨，是不是有点不知深浅，过于幼稚了呢？

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

大数据数据挖掘数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据大未必是大数据三谈大数据时代

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：曾津谈互联网数据分析与业务赋能实 ...

【CDA干货】Pandas文本词频统计：查找关键词出现次 ...

从“数据存储”到“智能取数”：CDA数据分析师视角 ...

【CDA干货】CDA透视分析核心计算方法：求和、计数、 ...

【CDA干货】客户交易价值分析：核心逻辑、分析方法 ...

从“数据仓库”到“智能取数”：CDA数据分析师视角 ...

CDA持证人专访：黄冬谈数字化运营核心与数据中台建 ...

【CDA干货】市场调查、竞品分析、需求调研的核心区 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】MySQL分表如何查询数据在哪张表？实战方 ...

【CAD干货】业务模型与逻辑模型的概念辨析及实战案 ...

从“零件”到“引擎”：CDA数据分析师视角下的指标 ...

CDA持证人专访：宋利宝谈电销行业数据运营与数据分 ...

【CDA干货】ARIMA时间序列分析方法：核心原理、建模 ...

从“通用基石”到“场景利器”：CDA数据分析师视角 ...

【CDA干货】SQL Server 提示“实例已在使用”：常见 ...

【CDA干货】Excel数据透视表两列相乘：正确计算方法 ...

从“模糊需求”到“精确标尺”：CDA数据分析师视角 ...

CDA持证人专访：冯卓基谈大数据平台搭建与行业数字 ...

【CDA干货】基于月度数据的送货率提升专项数据分析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

数据大未必是大数据 三谈大数据时代

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：曾津谈互联网数据分析与业务赋能实 ...

【CDA干货】Pandas文本词频统计：查找关键词出现次 ...

从“数据存储”到“智能取数”：CDA数据分析师视角 ...

【CDA干货】CDA透视分析核心计算方法：求和、计数、 ...

【CDA干货】客户交易价值分析：核心逻辑、分析方法 ...

从“数据仓库”到“智能取数”：CDA数据分析师视角 ...

CDA持证人专访：黄冬谈数字化运营核心与数据中台建 ...

【CDA干货】市场调查、竞品分析、需求调研的核心区 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】MySQL分表如何查询数据在哪张表？实战方 ...

【CAD干货】业务模型与逻辑模型的概念辨析及实战案 ...

从“零件”到“引擎”：CDA数据分析师视角下的指标 ...

CDA持证人专访：宋利宝谈电销行业数据运营与数据分 ...

【CDA干货】ARIMA时间序列分析方法：核心原理、建模 ...

从“通用基石”到“场景利器”：CDA数据分析师视角 ...

【CDA干货】SQL Server 提示“实例已在使用”：常见 ...

【CDA干货】Excel数据透视表两列相乘：正确计算方法 ...

从“模糊需求”到“精确标尺”：CDA数据分析师视角 ...

CDA持证人专访：冯卓基谈大数据平台搭建与行业数字 ...

【CDA干货】基于月度数据的送货率提升专项数据分析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

数据大未必是大数据三谈大数据时代