京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据,假规律聚集地
在大数据逐渐成为时尚代名词的时代,越来越多的专家学者开始试图揭开大数据的时尚外衣,寻找大数据这堆稻草中一根有意义的针。
2012年下半年,几本有关大数据的畅销书陆续出版,从国内信息管理专家涂子沛的《大数据:正在到来的数据革命》,到艾伯特 . 拉斯洛 . 巴拉巴西颠覆《黑天鹅》的惊世之作《爆发:大数据时代预见未来的新思维》,再到维克托 . 迈尔 . 舍恩伯格的“国外大数据系统研究先河之作”《大数据时代》, 最终引爆了大数据。
然而,进入2013年之后,各路大数据研究者却逐渐从兴奋转入反思,以北京大学传播学教授刘德寰、阿里云总裁王坚等人的声音为代表。一句“云计算和大数据,你们都理解错了”,王坚成功地引起了大家的关注,他从“大数据”这个概念是否准确入手,剖析互联网领域的大数据与其他领域的大数据的区别,指出如今的数据最突出的特点“不是大”,而是“数据变得在线了”。
无独有偶,早在2012年6月13日的新浪微访谈上,北大教授刘德寰也阐述了自己对大数据的看法:“大数据一词我不十分同意,没有一定之规.....‘. 大’是一个相对值。”近日,《CIO Insight/信息方略》记者就由兴奋转入反思的大数据问题采访了刘德寰教授,以下是经过编辑整理的对话。
大数据,时尚代名词
CIOI:如今,很多事情都想与大数据沾边,不管是各种国内外IT会议论坛,还是热点话题。对于目前无处不在的大数据,你怎么看?
刘德寰:首先,大数据不是新事物,天文学、地质学、量子物理、基因学等领域早已有这个概念。现在的大数据热潮主要指的是互联网领域的大数据,与上述领域的大数据不同的是,因为人的复杂性,这个领域的大数据挖掘会更加困难。既然是关于人的研究就需要应用研究人的方法梳理大数据。
“大数据”一词我不十分同意,没有一定之规。主要是相对于原来统计软件的局限而形成的一个词汇。由于现在互联网痕迹的增加,数据已经对原来的统计软件形成了挑战,所以“大”是一个相对值。
如你所说,如今大数据已经无处不在,它已然成为一个时尚词汇,而且很多人对于大数据存在理解混乱。
CIOI:你所指的理解混乱包括哪些方面?
刘德寰:现在谈到大数据,基本有四个混乱观念:第一,大数据是全数据,忽视甚至蔑视抽样;第二,连续数据就是大数据;第三,数据量级大是大数据;第四,数据量大好于量小。与之相对应的是:抽样数据只要抽样合理,结论就是准确的;连续只是一个数据结构;大量级的噪音会得出错误结论;大小与价值关系不大。
CIOI:也就是说,对于维克托.迈尔.舍恩伯格在《大数据时代》一书中提出的三组重要对比(注:因果关系VS相关关系,随机样本VS所有数据,精确性VS混杂性)你否定了其中两组,那对于“不是因果关系,而是相关关系”这个观点,你有什么要说?
刘德寰:舍恩伯格在《大数据时代》一书中提出的被广泛接纳的:大数据“没有精确只有混杂,没有因果只有相关”观点是错误的,混杂的数据需要经过梳理成合理的数据才有分析价值,无论是牛顿、爱因斯坦,还是韦伯的理想类型都是在混杂中找寻分析方法,相关关系很多时候是在没有找到因果之前的认识,因果与过程理解是研究的核心。
稻草与针的故事
CIOI:大量级数据的噪音问题会对数据分析与挖掘的结论有何影响?
刘德寰:斯坦福大学教授Trevor Hastie曾说过这样一句话,数据挖掘是什么,就是在大规模的数据干草堆中寻找一根有意义的针,其麻烦在于“许多稻草看起来也像针”。
这是现在在数据挖掘的问题上面临的最大风险,海量数据带来的风险是处处都是假规律。数据太大,会带来规律的丧失和严重的失真,每个结论都是显著的,没有什么是不显著的,这样就太可怕了。
CIOI:这种风险的大小是由什么决定的?
刘德寰:数据量的大幅增加会造成结果的不准确,来源不同的信息混杂会加大数据的混乱程度。研究发现:巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。那种认为“假设、检验、验证的科学方法已经过时”的论调,正是大数据时代的混乱与迷茫,人们索性拥抱凯文凯利所称的混乱。
CIOI:那怎样才能规避这种风险?
刘德寰:抽样。没有抽样的弥合,直接面对大数据,得出的结论基本上都是没有用的。所以大数据到来的时候,千万别像一个饿了好几天的人见到一个东西的吃法,会撑死的。
数据分析与挖掘VS数据整理
CIOI:谈到数据分析与挖掘,很多人都会提到啤酒与尿布的经典案例,尽管这个案例可以说已经非常陈旧了,你怎么看待这一点?
刘德寰:一个尿布与啤酒,还有一个现代汽车,是数据分析领域的两个非常经典案例。但是这两个案例都发生在20年前,数据挖掘已经谈了五十年,但却再没有第三个、第四个经典案例出现。这是因为现有的数据挖掘技术不能给商业决策者带来真正的洞察。其实,这更应该叫做数据整理。数据整理是什么?就如瞎子摸象,数据整理并没有摸清楚事物背后真正的规律,只是基于局部数据、某种行为监测整理出来的一个模型,这个模型甚至不能回答这个人想干什么,喜欢什么,这个人是怎样的人这些问题。
所以,要做数据分析与挖掘,首先就要把规律弄明白,把分析方法弄明白。
CIOI:大数据时代的数据挖掘应该怎么做,才能得出隐藏在无数假规律后面的真实结论?
刘德寰:上面已经提到,现在所说的大数据主要指的是互联网领域的大数据。互联网用户的基本特征、消费行为、上网行为、渠道偏好、行为喜好、生活轨迹与位置等,都反映用户的基本行为规律。体系完整是所有分析性工作的第一步,完整的框架甚至胜过高深的模型。
历程——族群——规律——验证,这是我认为比较好的数据分析与挖掘的框架。先要走历程,看整个事态发展的历程,找寻这个历程当中各个族群的规律,然后把这种规律,用抽样的方式找完之后,放置到大数据当中去不断地重新弥合。亚马逊从开始到现在一直是这样的思路,这也是亚马逊的广告推荐能够做到精准的原因,原因就在于其不是就大数据谈大数据,而是就人来谈大数据。
这也是数据挖掘的基本逻辑。数据挖掘的商业本质、结论,一定要极其简单,但是挖掘的过程一定要复杂复杂再复杂。如果反过来,数据挖掘过程很简单,一抓取,一排列,得出的结论五花八门,这是大数据时代面临的巨大风险。
CIOI:要做好数据挖掘,还需要关注哪些呢?
刘德寰:举个例子说明。有一个女性,突然一改以往的习惯,开始购买无香型乳液,同时购买某种维他命,微量元素中的锌和镁。这三种行为改变结合在一起说明,这个女性怀孕了。在这个过程中,我们有最基本的人的行为跟踪以及最基本的社会公共卫生知识的了解,这时候商家开始对其进行分析和营销,计算她的预产期,然后推荐各种婴儿产品广告。但是,商家一定要明白,如果这个人知道商家知道她怀孕了,她可能会非常的焦虑,因为她很可能不想被人发现她怀孕了。这时候,如果商家将婴儿床的广告放在稻草机的广告边上,然后一起给她,她的焦虑就会大幅降低。
这样才能真正做好数据挖掘。首先,生活变,行为才会变,要将关注点放在变化上。另外,非常重要的一点是,要关注人性,了解人性,要充分表现出对人的关怀。
CIOI:这也就是你一直说纯IT人员无法做好数据挖掘的原因吧?
刘德寰:对,要做好数据挖掘,必须要有市场研究人员、IT人员以及营销人员通力合作。数据建模首先要理解消费者,然后才能建立符合中国人的数据模型,要做到这些IT人员需要市场研究人员及营销人员的帮助。
CIOI:对于CIO们真正认识大数据,你有什么建议?
刘德寰:现实互联网领域被几本关于大数据的书籍所累,观念十分混乱,实际上,人类积累的数据经验是一切分析的基础,包括所谓的海量数据,这几本书的方法论横空出世,同时又没有落地,没有实际操作经验积累,误导性太强。要在认识的过程中,多向自己和他人提出问题,在思想碰撞与交流中促进思索,实现更深层次的认知。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
B+树作为数据库索引的核心数据结构,其高效的查询、插入、删除性能,离不开节点间指针的合理设计。在日常学习和数据库开发中,很 ...
2026-01-30在数据库开发中,UUID(通用唯一识别码)是生成唯一主键、唯一标识的常用方式,其标准格式包含4个短横线(如550e8400-e29b-41d4- ...
2026-01-30商业数据分析的价值落地,离不开标准化、系统化的总体流程作为支撑;而CDA(Certified Data Analyst)数据分析师,作为经过系统 ...
2026-01-30在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22