对大数据分析有哪些流行误解?-CDA数据分析师官网

热线电话：13121318867

对大数据分析有哪些流行误解?

2016-03-14

对大数据分析有哪些流行误解?

大数据是一个新概念，大数据产生的背景是整个社会走向数字化，特别是社交网络和各种传感设备的发展。大数据分析拥有自身的特点，与计量经济学既有区别又有联系。当前对大数据的分析存在许多流行观点，但其中很多核心观点都值得商榷。

大数据产生的背景是整个社会走向数字化，特别是社交网络和各种传感设备的发展。云计算和搜索引擎的发展，使得对大数据的高效分析成为可能，核心问题是如何在种类繁多、数量庞大的数据中快速获取有价值信息。大数据在社会分析、科学发现和商业决策中的作用越来越大，金融只是其中的一个应用领域。

什么是大数据

大数据是一个新概念，英文中至少有三个名称：大数据（big data）、大尺度数据（big scale data）和大规模数据（massive data），至今未形成统一定义。但一般认为大数据具有四个基本特征（即所谓4V特征）：数据体量庞大（volume）、价值密度低（value, 也有人理解成应用价值巨大）、来源广泛和特征多样（variety）、增长速度快（velocity, 也有人理解成需要高速分析能力）。

从学术角度，对大数据的讨论基本属于数据科学（Data Science）和数据挖掘（Data Mining）的范畴。

大数据的主要类型：第一类是记录数据，即记录的汇集，其中每个记录包含固定的数据字段（或属性）。比如，计量经济学中的横截面数据，文档数据，事务数据或购物篮数据；第二类是基于图形的数据，包括带有数据对象之间联系的数据和具有图形对象的数据，比如网页链接、化合物结构；第三类是有序数据，包括时序数据、序列数据、空间数据。比如，宏观经济指标序列，金融价格序列，基因组序列，词或字母的序列，同一时点上从不同的地理位置收集的气象数据（温度、湿度、气压等）。

大数据分析的主要任务：第一类是预测任务，目标是根据某些属性的值，预测另外一些特定属性的值。被预测的属性一般称为目标变量或因变量，被用来做预测的属性称为解释变量和自变量；第二类是描述任务，目标是导出概括数据中潜在联系的模式，包括相关、趋势、聚类、轨迹和异常等。描述性任务通常是探查性的，常常需要后处理技术来验证和解释结果。具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。

大数据分析与计量经济学的差异与联系

大数据分析与计量经济学既有差异又有联系。

两者的差异表现为：第一，两者处理的数据类型不同。计量经济学处理结构型数据，主要包括横截面数据、时间序列数据和面板数据，一般能以excel表格的形式呈现，而且表格的行列都有清晰的经济学含义，有一致统计口径。大数据分析能处理很多非结构型数据，包括文档、视频、图像，一般难以用excel表格的形式呈现。但这些非结构型数据需要量化后才能分析，在量化中一般伴随着信息损失。

第二，两者分析重点不同。计量经济学分析的重点是假设检验，核心理念与波普的证伪主义非常接近。计量经济学就是通过假设检验，来证伪或支持（注意不是证实）某个经济理论。相比之下，大数据分析更具实用主义色彩。预测在大数据分析中占有很大比重。对预测效果的后评估也是大数据分析的重要内容。

大数据分析与计量经济学的内在联系也不容忽视。在对随机问题的处理上，它们没有本质差别，基础理论都是概率论和数理统计。

对大数据分析的主流误解

舍恩伯格与合作者的《大数据时代》非常流行，但里面的很多核心观点都值得商榷。

第一，他们认为，大数据分析不是针对随机样本，而是全体数据。尽管数据收集和分析手段足够发达后，对全部数据的收集和分析成为可能，但从成本收益上衡量，这样做不是总有必要。根据中心极限定理，统计分析质量与样本数量之间存在平方根关系。比如，样本数量提高100倍，分析质量提高10倍。而统计分析工作量与样本数量之间存在线性关系。比如，样本数量提高100倍，存储和计算量一般增加100倍。这样，样本数量增长到一定程度后，新增工作量对应的成本就会超过质量提高产生的好处。因此，通过科学设计的抽样调查获得有代表性的样本，在大数据分析中仍有价值。

第二，他们还认为，大数据分析不是因果关系，而是相关关系。这个说法在统计学中是老生常谈，不是什么新观点。统计学基于相关关系，只能被用来证伪因果关系，而不能被用来证实因果关系。大数据分析的基础理论也是概率论和数理统计，从根本上就属于相关关系的范畴。

第三，大数据分析也不是万能的。基于大数据的预测可以抽象表述为：用表示已知信息，用表示未知信息，寻找关于的函数作为的预测。预测误差是，用（类似于均方误差）来衡量预测效果。概率论有一个基本结论：

对任意，总有，其中等号仅当时才成立，所以也被称为最佳预测（best predictor）。

可以看出两点结论：首先，大数据分析中，各种算法的核心任务是使尽可能接近理论上的最优预测；其次，即使在最优预测上，代表的预测误差仍不能被消除，是内生于信息结构的。比如，即使信息技术非常发达，如果现实世界中仍有部分信息不能被数字化（从而不能用在大数据分析中），这部分被“尘封”的信息就决定了大数据分析的有效边界。

第四，大数据能降低信息不对称的程度，但不能消除随机性（不确定性）；有助于评估风险（未来遭受损失的可能性，其中损失分布可计量），但不能消除奈特式不确定性（其中损失分布不可计量）。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；