京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据是一种方法论_数据分析师考试
忽如一夜春风来,无人不谈大数据。当然,它有足够的理由值得被探讨,伴随着技术的迅猛发展,人类的数据也在以指数级增长――最近两年,人类产生的所有数据量是2010年以前的总和。而以下这个知名结论似乎也已不证自明:“在未来,数据将会像土地、石油和资本一样,成为经济运行中的根本性资源。”
作为阿里巴巴集团副总裁、数据委员会会长,车品觉无疑是探讨大数据的好人选。不同于雨后春笋般冒出来的“大数据专家”,车品觉属于大数据实践方面的先行者。“大数据成了人们竞相争议的热词,但鲜有人提及这巨大变革中需要具备的能力。也许,我们早该忘掉那些华而不实的喧嚣,让大数据真正从‘看’到‘用’,真正‘活’起来。”他这样总结道。
方法论
不久之前,车品觉把公司的商业智能部门,改成了数据技术与产品部。“这是我响应了马总DT的战略。”――此前,马云在内部信件中明确了阿里未来的战略:以走向激活生产力为目的的DT(datatechnology)数据时代。“现在大部分公司都是中央管理数据,然后报告做出来给业务部门去用。在阿里我们的痛苦是,发现我的部门越来越多,但如果业务部门越来越不能直接使用数据,很难成为一个数据化公司,所以我把BI(商业智能)部门干掉,用另外一个方法来处理今天数据的理念。”车品觉说。
就在此刻,无数人正在成为大数据的提供者和受益者。那么,究竟何为大数据?相比明确的定义,大数据似乎更像一种方法论。无论是塔吉特百货“比父亲更早一步获悉女儿怀孕了”,还是沃尔玛“啤酒与尿布”的故事,这些营销经典案例都在表明:大数据的关键不是“量大”,而是“全面”――用多维手段记录消费者的行为迹象,如同让侦探一直住在电脑和移动终端里,通过对信息的交叉比对从而形成决策。“一切都被记录,一切都被数字化”是时代的核心理念。
你能想象阿里巴巴数据的海量。据报道,目前在阿里数据平台事业部的服务器上,攒下了超过100PB已处理过的数据――也就是104857600个GB。这相当于4万个西雅图中央图书馆,580亿本藏书。阿里巴巴已沉淀了包括交易、金融、SNS、地图、生活服务等多种类型的数据,当这些数据之间相互关联,将产生巨大的能量。
变革与爆发
互联网已经令工业文明积攒下的不少经验分崩离析,而大数据则又是一记重拳。“我们都是有问题找数据,大数据时代则不同,其最核心的特质是‘用数据找机会’”车品觉在书中写道。
大数据降低了决策成本,让人们在一定程度上绕开因果和理论,直奔应用环节。美国《连线》杂志主编克里斯・安德森甚至早在2008年就已断言:数据的洪流或将带来理论的终结。“面对大规模数据,科学家‘假设、模型、检验’的方法变得过时了。”
事实上,这并非人类第一次经历信息风暴,也一定不是最后一次。“大数据远未到它的爆发点。未来,数据的种类将超出我们的想象。”车品觉写道,“今天的大数据就是明天的小数据。”几乎可以肯定,未来人们所接受的服务,将以更加数字化和个性化的方式呈现。“未来人类的身上流动着的是血液以及数据。”
车品觉这样解释:“以前的数据更多集中在外部行为监控上,不论是网络购买行为,还是网上社交行为,都是用户在‘远距离’提供数据,即便这样,我们仍然还没有运用好这些数据。随着可穿戴式设备的出现,数据和人将真正融为一体,类似谷歌眼镜这样的设备,将让我们看到的东西即时数据化;类似健康手环类设备和可以深度收集脑电波数据的设备,将随时会使人体的活动转化成数据。
目前,记录睡眠状况只是其初步的应用,在不远的未来,用数据记录我们每一秒钟的生活也将成为可能。当万物皆数据的时刻到来,商业发展的更多新机会将会出现,数据将帮助我们更好地做出判断,比如什么时候最适合吃饭、什么时候身体疲惫适合睡觉和什么时候记忆力最好等,这些都能通过数据来进行预判。甚至于,当记录了人的足够数据之后,数据就可能告诉我们此时此刻应该做些什么及最佳的策略。”
如此看来,大数据似乎在一定程度上满足了人类预测未来的远古奢望(著名物理学家巴拉巴西则在《爆发》中指出“人类93%的行为可以预测”)。但正如车品觉所言:“大数据的本质是人,数据研究的极点就是莫测的人性。”莫测也许就意味着盲点。数据的确定性和人性的不确定性,或许是平衡未来人类行为天平两端的砝码。
大数据的边界
记者:我了解到,在现阶段,很多企业在面对大数据时是将信将疑的态度,这是什么原因?
车品觉:第一是不知道如何起步。很多企业只知道大数据现在很重要,但却不知道如何去实现。以企业的BI(商业智能)部门为例,是否应该有个BI部门,BI部门能为企业做什么,以及这个部门应该怎么去做?这几个问题对很多企业来说答案都是不清楚的,这必然会导致企业对大数据存在疑问。
还有一部分企业,虽然本身有BI部门,但可能连一些KPI指标都不一定能定得好,他们在企业中所扮演的角色通常是支持部门,而非创新部门。当大数据来临时,如果突然让这个部门的角色转变成为创新部门,他们肯定在一时之间难以转换;第二是人才不匹配。不知如何起步同时也与人才不匹配的问题相关联,如果企业连BI部门是否该存在以及如何定位都不清楚的话,必然也不知道吸引什么样的人才以及如何去用;第三是没有数据收集策略。过去,企业大部分是在用数据,有什么数据就用什么。但现在,企业需要转型到“你需要什么数据,收集数据的目的是什么?”尽可能比较前瞻的数据策略,而不能在需要用数据时再去看自己有没有。
对于企业来讲,首先要明白,自己有什么,然后再根据自己所拥有和自己缺乏的,去做相应策略调整。比如有数据的可以通过吸引人才来丰富自己的数据技术水平,而有技术没有充足数据的,则可以通过合作来完善数据。
记者:在一些企业,采集数据的人和使用数据的人往往是分开的,这会带来什么影响?
车品觉:在我的新书里面,有一章提及到这个问题。“目前在大数据方面,无法深入应用的原因在于,从收集到使用的数据价值链出现了问题。从理论上来说,从收到用的螺旋式循环,只有在先用好数据的前提下,然后才能运营数据。而现在的情况是,用数据的人不知道数据从哪里来,做数据的人不知道数据如何使用。用的人用得不好,采集数据的人很难做好数据。这一问题造成的结果就是,数据量变得越来越大,而且越来越困难有效地使用。”从用到养,从养到用的闭环可以使数据“活”起来,数据与商业场景的互动才可以确保企业不因为数据而数据。
记者:数据收集存在所谓的“边界”吗?
车品觉:大数据的收集很难定义边界。因为,大数据的应用讲求创新以及跨界。所以我主张以企业自身的业务需要建立数据收集策略。首先,企业得先清楚知道,什么样的数据对你来说是重要的。其次,再去寻找这个数据在哪里。然后,再因此去建立数据收集策略。而这个时候,你才有可能知道数据收集的一个相对有点轮廓的边界。但是,这个边界并非是具象的,而是动态的。
数据无所不在
记者:如何培养一名数据分析师的商业敏感性?
车品觉:我认为,首先不要强调“数据”分析师,分析师的本质就是对商业的敏感性,培养分析师最重要的是“混”在商业场景中,然后才用数据去洞察对错。做个好的分析师还要把自己作为分析对象,从错判中找出正判。最后还要注意数据切勿滥用,数据是一种信仰。分析师最主要的是分析,数据只是其中的一种方式。如果过于强调数据分析师的话,反而会失去分析师的本质。
记者:能否分享一下你个人最得意的一个数据分析案例?
车品觉:小卖家的成长案例――对于小卖家来说,很容易出现一个问题:你能接待的客户有多少个?我们通过数据发现,小卖家随着接待的客户量的增长,会出现一个营收的临界点。在临界点之前,客户量越多,卖家的营收就越高;而在过了临界点之后,营收反而是随着客户量的增加而减少的。这个分析能够给予小卖家以一定指导:对于他们来说,需要了解自己在发展过程中,那个临界点在哪里,以及如何去改善。
记者:有观点认为,大数据时代的来临,将人类从探寻因果关系的逻辑中解放,你怎么看?
车品觉:中国人的思想特别强调每件事情的本质与现象,数据挖掘可以从大量数据的现象中找出事情发生的规律,但要充分理解一件事情的现象也需要从本质出发去洞悉变化。
记者:可穿戴设备,包括未来更先进的人工智能,甚至随着人类对大脑活动认知的全面理解,将迎来一个数据无所不在的世界,你对此有何展望?
车品觉:有了大数据之后,人工智能会有一个比较大的突破。未来,人会越来越懂得利用机器来帮助改善今天的生活和工作。也许目前我们比较的是自我的能力,在将来,人与人之间的竞争比较的是机器的能力而非个人的IQ能力。而人工智能的重要原材料也是数据。就像在原始社会,人与动物最关键的差别之一是,人类懂得使用工具。而从现代社会进化到data时代,与现在区别在于,未来人类不仅懂得用工具,还要懂得用和营运数据。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22