
大数据,假规律聚集地
在大数据逐渐成为时尚代名词的时代,越来越多的专家学者开始试图揭开大数据的时尚外衣,寻找大数据这堆稻草中一根有意义的针。
2012年下半年,几本有关大数据的畅销书陆续出版,从国内信息管理专家涂子沛的《大数据:正在到来的数据革命》,到艾伯特 . 拉斯洛 . 巴拉巴西颠覆《黑天鹅》的惊世之作《爆发:大数据时代预见未来的新思维》,再到维克托 . 迈尔 . 舍恩伯格的“国外大数据系统研究先河之作”《大数据时代》, 最终引爆了大数据。
然而,进入2013年之后,各路大数据研究者却逐渐从兴奋转入反思,以北京大学传播学教授刘德寰、阿里云总裁王坚等人的声音为代表。一句“云计算和大数据,你们都理解错了”,王坚成功地引起了大家的关注,他从“大数据”这个概念是否准确入手,剖析互联网领域的大数据与其他领域的大数据的区别,指出如今的数据最突出的特点“不是大”,而是“数据变得在线了”。
无独有偶,早在2012年6月13日的新浪微访谈上,北大教授刘德寰也阐述了自己对大数据的看法:“大数据一词我不十分同意,没有一定之规.....‘. 大’是一个相对值。”近日,《CIO Insight/信息方略》记者就由兴奋转入反思的大数据问题采访了刘德寰教授,以下是经过编辑整理的对话。
大数据,时尚代名词
CIOI:如今,很多事情都想与大数据沾边,不管是各种国内外IT会议论坛,还是热点话题。对于目前无处不在的大数据,你怎么看?
刘德寰:首先,大数据不是新事物,天文学、地质学、量子物理、基因学等领域早已有这个概念。现在的大数据热潮主要指的是互联网领域的大数据,与上述领域的大数据不同的是,因为人的复杂性,这个领域的大数据挖掘会更加困难。既然是关于人的研究就需要应用研究人的方法梳理大数据。
“大数据”一词我不十分同意,没有一定之规。主要是相对于原来统计软件的局限而形成的一个词汇。由于现在互联网痕迹的增加,数据已经对原来的统计软件形成了挑战,所以“大”是一个相对值。
如你所说,如今大数据已经无处不在,它已然成为一个时尚词汇,而且很多人对于大数据存在理解混乱。
CIOI:你所指的理解混乱包括哪些方面?
刘德寰:现在谈到大数据,基本有四个混乱观念:第一,大数据是全数据,忽视甚至蔑视抽样;第二,连续数据就是大数据;第三,数据量级大是大数据;第四,数据量大好于量小。与之相对应的是:抽样数据只要抽样合理,结论就是准确的;连续只是一个数据结构;大量级的噪音会得出错误结论;大小与价值关系不大。
CIOI:也就是说,对于维克托.迈尔.舍恩伯格在《大数据时代》一书中提出的三组重要对比(注:因果关系VS相关关系,随机样本VS所有数据,精确性VS混杂性)你否定了其中两组,那对于“不是因果关系,而是相关关系”这个观点,你有什么要说?
刘德寰:舍恩伯格在《大数据时代》一书中提出的被广泛接纳的:大数据“没有精确只有混杂,没有因果只有相关”观点是错误的,混杂的数据需要经过梳理成合理的数据才有分析价值,无论是牛顿、爱因斯坦,还是韦伯的理想类型都是在混杂中找寻分析方法,相关关系很多时候是在没有找到因果之前的认识,因果与过程理解是研究的核心。
稻草与针的故事
CIOI:大量级数据的噪音问题会对数据分析与挖掘的结论有何影响?
刘德寰:斯坦福大学教授Trevor Hastie曾说过这样一句话,数据挖掘是什么,就是在大规模的数据干草堆中寻找一根有意义的针,其麻烦在于“许多稻草看起来也像针”。
这是现在在数据挖掘的问题上面临的最大风险,海量数据带来的风险是处处都是假规律。数据太大,会带来规律的丧失和严重的失真,每个结论都是显著的,没有什么是不显著的,这样就太可怕了。
CIOI:这种风险的大小是由什么决定的?
刘德寰:数据量的大幅增加会造成结果的不准确,来源不同的信息混杂会加大数据的混乱程度。研究发现:巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。那种认为“假设、检验、验证的科学方法已经过时”的论调,正是大数据时代的混乱与迷茫,人们索性拥抱凯文凯利所称的混乱。
CIOI:那怎样才能规避这种风险?
刘德寰:抽样。没有抽样的弥合,直接面对大数据,得出的结论基本上都是没有用的。所以大数据到来的时候,千万别像一个饿了好几天的人见到一个东西的吃法,会撑死的。
数据分析与挖掘VS数据整理
CIOI:谈到数据分析与挖掘,很多人都会提到啤酒与尿布的经典案例,尽管这个案例可以说已经非常陈旧了,你怎么看待这一点?
刘德寰:一个尿布与啤酒,还有一个现代汽车,是数据分析领域的两个非常经典案例。但是这两个案例都发生在20年前,数据挖掘已经谈了五十年,但却再没有第三个、第四个经典案例出现。这是因为现有的数据挖掘技术不能给商业决策者带来真正的洞察。其实,这更应该叫做数据整理。数据整理是什么?就如瞎子摸象,数据整理并没有摸清楚事物背后真正的规律,只是基于局部数据、某种行为监测整理出来的一个模型,这个模型甚至不能回答这个人想干什么,喜欢什么,这个人是怎样的人这些问题。
所以,要做数据分析与挖掘,首先就要把规律弄明白,把分析方法弄明白。
CIOI:大数据时代的数据挖掘应该怎么做,才能得出隐藏在无数假规律后面的真实结论?
刘德寰:上面已经提到,现在所说的大数据主要指的是互联网领域的大数据。互联网用户的基本特征、消费行为、上网行为、渠道偏好、行为喜好、生活轨迹与位置等,都反映用户的基本行为规律。体系完整是所有分析性工作的第一步,完整的框架甚至胜过高深的模型。
历程——族群——规律——验证,这是我认为比较好的数据分析与挖掘的框架。先要走历程,看整个事态发展的历程,找寻这个历程当中各个族群的规律,然后把这种规律,用抽样的方式找完之后,放置到大数据当中去不断地重新弥合。亚马逊从开始到现在一直是这样的思路,这也是亚马逊的广告推荐能够做到精准的原因,原因就在于其不是就大数据谈大数据,而是就人来谈大数据。
这也是数据挖掘的基本逻辑。数据挖掘的商业本质、结论,一定要极其简单,但是挖掘的过程一定要复杂复杂再复杂。如果反过来,数据挖掘过程很简单,一抓取,一排列,得出的结论五花八门,这是大数据时代面临的巨大风险。
CIOI:要做好数据挖掘,还需要关注哪些呢?
刘德寰:举个例子说明。有一个女性,突然一改以往的习惯,开始购买无香型乳液,同时购买某种维他命,微量元素中的锌和镁。这三种行为改变结合在一起说明,这个女性怀孕了。在这个过程中,我们有最基本的人的行为跟踪以及最基本的社会公共卫生知识的了解,这时候商家开始对其进行分析和营销,计算她的预产期,然后推荐各种婴儿产品广告。但是,商家一定要明白,如果这个人知道商家知道她怀孕了,她可能会非常的焦虑,因为她很可能不想被人发现她怀孕了。这时候,如果商家将婴儿床的广告放在稻草机的广告边上,然后一起给她,她的焦虑就会大幅降低。
这样才能真正做好数据挖掘。首先,生活变,行为才会变,要将关注点放在变化上。另外,非常重要的一点是,要关注人性,了解人性,要充分表现出对人的关怀。
CIOI:这也就是你一直说纯IT人员无法做好数据挖掘的原因吧?
刘德寰:对,要做好数据挖掘,必须要有市场研究人员、IT人员以及营销人员通力合作。数据建模首先要理解消费者,然后才能建立符合中国人的数据模型,要做到这些IT人员需要市场研究人员及营销人员的帮助。
CIOI:对于CIO们真正认识大数据,你有什么建议?
刘德寰:现实互联网领域被几本关于大数据的书籍所累,观念十分混乱,实际上,人类积累的数据经验是一切分析的基础,包括所谓的海量数据,这几本书的方法论横空出世,同时又没有落地,没有实际操作经验积累,误导性太强。要在认识的过程中,多向自己和他人提出问题,在思想碰撞与交流中促进思索,实现更深层次的认知。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02