我们真的需要盲目烧钱追求大数据吗_数据分析师-CDA数据分析师官网

热线电话：13121318867

我们真的需要盲目烧钱追求大数据吗_数据分析师

2014-12-15

我们真的需要盲目烧钱追求大数据吗_数据分析师

大数据可能是现在最炙手可热的技术名词了。如若你现在还没有加入大数据的阵营，那你想方法弄到一些。毕竟，竞争需要大数据。如若你的数据量很小，你将被竞争对手彻底打败。

作为顾问和 IT公司向企业推销的另一个大项目，在大数据背后的料想还存在许多问题。幸运的是，诚实的大数据实践者（又称数据科学家）从不放下怀疑态度，并提出了一系列对大数据放肆宣传感应厌倦的理由。如下：

理由一，纵然像Facebook和Yahoo!这样的互联网巨头也并非总是处置大数据，Google风格工具的应用是不合适的。

Facebook和雅虎运行其巨型集群机（功能壮大的服务器集合）来处置数据。必须要进行集群处置是大数据的标志之一。毕竟，在家用PC就能处置的数据不能称为大数据。将业务拆分为小业务，使用一系列的计算机来处置每个小业务的须要性，是类似Google计算世界上每一个网页排名的大数据问题典型特点。

现在看来，对于Facabook和Yahoo!来说，每个业务都是用同样规模的集群机是不须要的。好比Facebook的情况，工程师提交给集群机的大多数任务都是 MB到GB的范围，完全可以在一台计算机甚至札记本电脑上完成。

Yahoo!也存在类似的情况， Yahoo!集群机所处置的数据中位数只有 12.5GB，通常台式电脑不能处置这种任务，但一台配置较好的服务器完全可以胜任。

以上观点均提炼于Microsoft Research的一篇名为《 Nobody ever got fired for buying a cluster》的论文。论文中指出纵然是在最渴求数据的公司，多数问题也不必集群处置。由于对于大量问题类型而言，集群是一个相对低效甚至是完全不合适的解决方案。

理由二，大数据已经成为数据剖析的代名词，这种定义是混乱的，并会起到反作用。

数据剖析最早可追溯到为皇家粮仓的所有粮食制表统计，但是现在你必须要在数据前加“大”字，须要的数据剖析已经卷入了一场较大但是用处不大的流行风暴中。例如，一篇文章告诫读者“ 3个步骤将大数据运用到你的小企业中”，实际上小企业的数据量谷歌文档就能处置，更不说用札记本的EXCEL了。

这就是说，实际上大多数企业处置的数据都是被Open Knowledge Foundation的Rufus Pollock所说的小数据。这很主要，这是一场“革命”， Pollock称。但它与大数据关系不大。

理由三，超大化你的数据规模正在变成一件得不偿失的事情。

数据越多就越好吗？不尽然。如若你正在寻找相关方程式——x，y的关系，怎样能给我提供有效信息？实际上数据越多，随之而来的麻烦也越大。

能从大数据中提取的信息会随着数据规模的增加而减少，Michael Wu（社交媒体剖析公司Lithium的首席数据剖析学家）写道。这意味着越过了某一点后，继续增加数据所形成的边际数据回报率减少到如此地步，搜集更多数据仅仅是浪费时间。

原由之一：数据越“大”，寻找相关性时错误信息会更多。正如数据剖析家Vincent Granville在《 The curse of big data》（《大数据的诅咒》）中写道的：纵然只包括1000个条目的数据集，也很容易会陷入处置几百万个相关剖析的处境。”这意味着，“所有这些相关剖析，有些可能会高度切合，但这仅仅是一种有时：如若你使用这种相关剖析作为预测模型，结果将会错误”。

这个错误经常在大数据的原始应用领域之一遗传学中突然出现。对基因组序列有兴趣的科学家苦心找寻其相关性而进行的无休止的研究，最终却得出了种种毫无益处的结果。

理由四，在某些情况下，大数据会令你茅塞顿开，但也可能会令你陷入疑惑。

公司一旦开始使用大数据，就深陷于一系列艰涩学科的研究中——统计，数据质量，和其他构成“数据科学”的一切。就像那些每日都需要发表出书物的科学，经常会被忽视或是被修正，或是从未被证实，这之中的陷阱实在太多了。

数据搜集方式的偏见，上下文的缺乏，数据群集的缺口，数据的人工处置模式和整体认知误差都会导致纵然最好的研究人员也可能发现错误的相关模型，麻省理工学院媒体实验室客座教授Kate Crawford说：“我们可能会陷入某种算法幻觉中”。换句话说，纵然你有大数据，也并非IT部门的任何人都能处置的，他可能需要有博士学位或等量经验。当处置完成后，他们的答案可能是你并不需要“大数据”。

那么哪个更好——大数据或小数据？

你的业务需要数据吗？当然需要。但是只有尖头发呆伯特的老板才会像赶时髦一样购置具有所谓主要性的数据规模。在科学领域同样存在着企业使用数据制订决议时固有的问题——数据质量，总体目标以及上下文和直觉的主要性。记住：Gregor Mendel仅利用一本札记本的数据就发现了遗传的秘密。主要是数据的质量，而不是数据的规模。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；