大数据里的真命题和伪命题_数据分析师-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读大数据里的真命题和伪命题_数据分析师

大数据里的真命题和伪命题_数据分析师

2015-02-27

大数据里的真命题和伪命题_数据分析师

大数据必会深刻的改变这个世界，这点是毋庸置疑的，但从很多当下的讨论来看，大家似乎在大数据的使用边界上走入了误区，这篇文章想具体探讨下大数据能干什么以及不能干什么上的原则问题。

大数据

大数据与预测

人们总是想预测未来，因为这样经济收益会非常大，作为结果就经常看到大数据与票房预测的故事，有时准，有时不准。

大数据确实可以用来做预测，但是有能力边界的，影响这个能力边界的关键因素就是索罗斯经常说的反身性。反身性说的是：参入者的思维与参入的情景之间相互联系与影响，彼此无法独立，认知与参入处于永远的变化过程之中（百度百科）。反身性之所以对预测有影响，是因为它会导致出现不连续的变化。

这在逻辑上很好理解，当一件事物是连续变化的，你比较容易计算出它未来的状态，比如汽车，我们只要知道他的速度，那就比较容易预测它下一刻的位置。但如果是充满突变的混沌系统，这种预测就很难实现，汽车本来走的好好的，突然天上掉下一架飞机来，那它当然不会出现在本来预测的那个位置。所以做预测，第一关键是这系统是不是一个混沌系统，在充满偶然的混沌系统里，基于数据的预测是无效的。而反身性正是导致混沌蝴蝶会出现的一个关键因素。

当我们去观察某个系统并采取行动时，系统本身会因为我们的观察和行动发生改变，这就是反身性。而当每个人都这么做时，那被观察和操作的系统就会变成混沌系统。金融市场已经充分说明了这点，如果大数据在预测上是没边界的，那只要掌握了大数据就应用技巧，那在金融市场上就没人不会赔钱，但显然这是不可能的，最多是不同人输赢的概率不同。

容易预测的与不容易预测的

如果一种现实更多的依赖于某些不易改变的因素，比如一种文化传统、一种生物特性，那这种现实是容易被预测的；如果一种现实更多的依赖于可被瞬间改变的因素，比如：人们的心情，那这种现实是不容易预测的，甚至是不可预测的。

具体来讲，人们生病后会检索自己的相关症状，而传染病会扩散，因此Google那种监测传染病暴发区域，以及预测其可能扩散路径的大数据使用方式是极为有效的。在这里反身性并不起太大作用。

但股票就不行，因为你在预测，别人也在预测，买家和卖家的行动又不一致，这就会使股票市场成为混沌系统。究竟怎么样才能用大数据预测到国内这波股票的上涨呢？

同传染病和股票市场相比，电影票房的可预测性则在两者之间。有必然性在支撑，比如基本上很垃圾的电影很难有好的票房，但偶然性影响也很大，你不好预测那个点戳到了人们的那个神经，它突然就变火了。谁能预测泰囧的10亿票房呢？所以我的判断是在票房预测上，不管大数据怎么发展，它始终会处在时灵时不灵的状态上，因为这根本不是个技术问题。

总结来看，反身性作用越大的领域越不容易预测，反之则预测的帮助会比较大。

监测与预测

在预测上大数据必须面对自己的边界问题，但在监测上大数据的威力是无远弗届的。

我们这个世界的数据化程度一定是越来越高的，当我们在社交网络中活动时，其实就是我们个人在不停数据化的过程，我们的偏好、关系、每日活动等正在源源不断的数据化过程中，如果可穿戴设备、智能家居发展起来，那数据化的东西就会更多。

我在互联网时代的方法论那系列文章里一直坚持这样一种观点，互联网正在生成一个与现实世界并行的很像黑客帝国的意识空间，而这个意识空间是数据化的。理论上讲，在这个空间里不存在信息不透明这回事，空间和时间不再成为阻隔信息流动的障碍。所以不管你喜欢不喜欢，在数字化面前每个人正在变成透明人，也就是说100%可监测。

监测与预测间的桥梁是必然逻辑和直觉，直觉依赖于个人才情天分，这放在一边不提，主要谈下必然逻辑。有必然逻辑在事情就有了发生的可能性，但不一定发生。这点比较不好理解，我们来看个例子：

我们谈微信的时候更容易聚焦到张小龙打造产品的功力，往往容易忽视马化腾张小龙才是打造微信的组合。从公开报道来看，当时腾讯内部是有很多团队同时在开发移动IM的，而这种投入很可能是基于“移动互联网才是真的互联网，腾讯必须在移动互联网的IM上占有统治地位”的假设，在这种假设下马化腾又有所谓的灰度理论，所以才有多支团队同时并进。如果没有这类顶层设计，我想更多公司更可能是在移动版QQ上做微创新，进一步掉入创新者的窘境。

如果抽象点来分解这个例子，那我们可以这么讲，移动互联网的发展是可以从大数据上感知的，因为只要做足够的监测，那么就可以从数据上在较早阶段感知到这个趋势。但判断移动互联网是真的互联网，则依赖于当事人的眼光格局，再进一步决定去同时做微信和手机QQ，那则是上述逻辑的一个后果。在决定做微信那个时间点，马化腾乃至其他大佬也不知道它一定能成，否则大家一定是别的事情都不干，都专心做微信。但微信确实是移动互联网是真的互联网这一条必然逻辑的一个衍生品，相当于是预测未来的一个后果。这就是大数据、监测、必然逻辑与预测的关系。

结束语

大数据方兴未艾，但在用大数据时最好也考虑下它的能力边界，否则就可能因为它在某个点上失灵而怀疑大数据本身，这是会得不偿失了。随着数据化程度的提高，反身性的作用可能会越来越大，作为结果，世界会变得越来越像混沌系统。在这样的趋势下，相信上文提到的监测与必然逻辑的结合应该会对如何使用大数据有所帮助。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；