采集和分析大数据时所面临的问题-CDA数据分析师官网

热线电话：13121318867

采集和分析大数据时所面临的问题

2016-08-15

采集和分析大数据时所面临的问题

你或许很熟悉这样一个统计结论：世界90%的数据是过去几年里产生的。事实上，过去三十年中，全世界的数据量大约每两年增加10倍——远远超过了计算机领域的摩尔定律。

采集和分析大数据时所面临的问题

这样的信息增长速率会带来一些问题，其中之一便是现时的数据量总是远远超过即使最近的过去。想象你正在通过一本相片簿回顾人生的头18年，假设在两岁时你有两张照片，如果信息增长速率与世界数据量相同，那么在你6到8岁时，你会有惊人的2000张照片；10到12岁时有20万张照片；而在16到18岁时，照片数量会达到2亿张，相当于在最后两年中，每秒有3张以上的照片。

当然，这并非是全球数据增长情况的完美类比。首先，世界大部分数据的增长源于有更多的人创造出了更多的信息来源，同时伴随更大、更精细的格式。不过，有关比例的观点还是成立的。如果你像前述的例子那样回顾以往的记录，或者试图进行分析，那距离越久远的过去就会变得越无关紧要。

这就是目前采集和分析大数据时所面临的问题。当你开始以更长远的视角往前回溯时，会发现近期的事情太多，而以前的事情太少。短视是结构性的，对短期趋势的过度估计是压倒性的，同时却忽略了历史的经验教训。

为了理解这个问题的重要性，需要考虑社会科学中有关“近期偏差”（recency bias，又称近因效应）的研究发现。近期偏差是指在判断趋势时，认为未来事件与近期体验更加类似。这可以说是某种“可利用性法则”（availability heuristic） ——不恰当地以最容易被知觉到的信息来作为思考的基础。这还是一种普遍的心理学特征。举例来说，如果在你居住的地方，过去几年中夏季都异乎寻常地寒冷，你可能会认为夏天正在变得更冷——或者说你当地的气候正在变冷。事实上，你不应当把任何东西都塞到数据里分析。你需要有一个长远的视角，才能认识真正有意义的气候趋势。在短时期内，你最好不进行任何猜测。不过，我们之中又有谁能真正做到这点呢？

现实生活中大部分复杂的趋势正是如此：股票市场、经济发展、企业的成功或失败、战争或和平、国家关系、帝国的崛起和衰落等等。短期分析不仅不够扎实，而且毫无益处甚至会带来误导。看看2009年金融危机即将到来的时候，还有那么多经济学家信誓旦旦地宣称这一事件不会发生。认为从那种时间尺度的数据就能做出扎实的预测，本身就有很大的问题。

我们还应当记住，在决定哪些数据是保存还是删除的时候，新颖性往往会成为主要的考虑因素。旧的淘汰，新的进来，在这个搜索算法本质上偏向于新鲜事物的数字世界中，这是明显的趋势。从高等法院的裁决，到所有的社交媒体服务平台上，我们到处都可以看到已经失效的网址。对当前的偏好已经渗透到我们身边几乎所有的技术中，大多数人已经习惯用个四五年就把原本光鲜亮丽的机器抛弃。

怎么办？这不仅是一个如何更好保存旧数据的问题——尽管这并不是个坏主意，想想我们现在还有什么东西能保留10年的。更重要的是，这个问题关系到确定哪些东西值得优先保存，如何在知识的名义下，确定哪些信息最有意义。

或许我们需要的是“智能遗忘”：让我们的工具变得更会放弃最近的过去，从而在整体视角上保持更大的连续性。这有点像是重新组织一本相片簿，尽管加上了更多的数学方法。什么时候两百万张照片的价值比两千张照片更低？什么时候较大的样品覆盖的范围反而较小？什么时候细节水平能提供有用的质疑证据，而不是虚假的自信？

许多数据集是无法缩减的，而且在完整的情况下才最宝贵，比如，基因序列、人口统计学数据、地理和物理学的原始观测数据等。科学性越弱，数据规模与数据的质量更可能呈现负相关，此时时间本身就成为更加重要的过滤工具。我们如果不仔细选择过去保存下来的有价值、有意义的东西，那它们就会悄无声息地淹没在如今日益增长的噪音之中。

今天的企业、个人和政府机构都能够获得比以往（甚至就在几年前）大许多数量级的数据，但这些数据并没有获得更多的处理时间。利用越来越高效的工具，董事会成员、首席执行官、政府官员等决策者可以就已有的信息提出更有意义的问题。单纯的堆积不是问题的答案。在一个数据量越来越大的时代，如何选择不知道哪些事情，与选择做什么事情一样重要。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

大数据偏差特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

采集和分析大数据时所面临的问题

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA数据分析师实操指南：指标体系搭建的方法与完整 ...

【CDA干货】销售额预测实战：基于时间序列与回归分 ...

【CDA干货】金融数据分析：为什么异常值处理是必做 ...

CDA数据分析师必备：指标与指标体系管理基础指南 ...

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA数据分析师核心能力：数据建模实操指南，让数据 ...

【CDA干货】MySQL课时排序累加全指南：3种方法+实操 ...

【CDA干货】Tableau环比计算全指南：3种方法+实操步 ...

CDA数据分析师实操指南：从0到1开展数据治理，激活 ...

【CDA干货】方法验证核心统计：重复性用卡方分析， ...

【CDA干货】两组数据的单因素方差分析：什么时候用 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

采集​和分析大数据时所面临的问题

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA数据分析师实操指南：指标体系搭建的方法与完整 ...

【CDA干货】销售额预测实战：基于时间序列与回归分 ...

【CDA干货】金融数据分析：为什么异常值处理是必做 ...

CDA数据分析师必备：指标与指标体系管理基础指南 ...

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA数据分析师核心能力：数据建模实操指南，让数据 ...

【CDA干货】MySQL课时排序累加全指南：3种方法+实操 ...

【CDA干货】Tableau环比计算全指南：3种方法+实操步 ...

CDA数据分析师实操指南：从0到1开展数据治理，激活 ...

【CDA干货】方法验证核心统计：重复性用卡方分析， ...

【CDA干货】两组数据的单因素方差分析：什么时候用 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

采集和分析大数据时所面临的问题