<转>数据分析的3大阶段6大步骤

前言

这篇文章是我读《成为数据分析师：6步练就数据思维》之后，进行的一篇梳理、回顾的文章。我将对这本书中我认为重要的知识点与大家分享，感兴趣的小伙伴可以找这本书看看。

一、这是一本什么样的书？

（1）书本概述

这是一本科普性质的文章，让我们能更好的理解数据分析的每一个过程与步骤，其中包含的大量例子能够帮助我们很好的理解每一个步骤。书本风格是欧美风，是国外书的译本。

书本共分为三个模块：

引言（了解）

主要讲数据分析是什么？

3大阶段、6大步骤，高效商业决策的秘密（重点）

主要讲如何进行数据分析？

未来人人都是数据分析师（了解）

对数据分析师的工作方式以及思想进行宣导

（2）适合人群

我觉得这本书适合：

数据分析的入门者，想要了解数据分析步骤，以及讲解数据分析故事的方法。

已经是数据分析师，还没有形成自己的一套完整的数据分析项目的流程或步骤的，可以参考制定自己的工作流程。

书中介绍的该书的适合受众是：

能基于分析结果制定出好的决策并采取行动的人。

虽然是企业内部的非定量分析人员，但需要基于定量数据和分析来开展工作并制定决策。

我对书本受众人员的解读就是：业务层的分析人员，需要借助技术方向的人来做决策。

二、引言部分解读：数据分析的本质

（1）数据分析本质

通过对大量数据进行统计、分析、解释和挖掘，然后推动现实问题的决策和价值的实现。

从另一本书《从零进阶数据分析的统计基础中》，我读到了更接地气的一个定义，如下：

数据分析是指通过某种方法和技巧，对准备好的数据进行探索、分析，从中发现因果关系、内部联系和业务规律等分析结果，为特定的研究或商业目的提供参考。

（2）按分析的方法和目的分类

描述性分析

所谓的“报告”，通过报表，描述某项事物的特性。

用来表达这是一个什么情况很有效，但不能解释某种结果发生的原因或者未来会发生的事情

比如：某公司2018年的月度销售额报表，报表仅表达了一个结果，而不能解释为什么有些月份的销售额猛增。

预测性分析

对数据特征和变量的关系进行描述，基于过去的数据对未来进行预测；

步骤一般是：先确定变量之间的联系，然后基于这种联系来预测另一种现象出现的可能性

比如：用户看到啤酒后，顺便拿上尿布的可能性

规范性分析

偏向数据挖掘，通过实验等方式，通过多个变量的处理，得到实验环境，达到预期目标

在得到预期结果后，就施行实验环境下的条件，最终达到商业目标。

比如：一件商品，在某个价格的情况下，大量顾客都会购买，但是又要有比较高的收益，这时会进行分析，在哪个价格区间，销量最大，收益最高。

（3）按分析方法以及收集和分析的数据类型分类

定性分析（非结构化数据）

定性，即说明是什么的问题。目的是深入了解某种现象出现的根本原因和诱因。

是分析的最初阶段，也是探索性研究的有效工具

是探索初期的，识别是什么的问题的一个步骤

定量分析（结构化数据）

通过统计、数学或者计算的方法或方式，对现象进行系统的实证研究。

属于研究阶段

是一个分析过程，验证猜想与实施的过程

（4）按照研究者的目的分类（作为了解即可，不做展开）

统计

预测

数据挖掘

文本挖掘

优化

实验设计

三、三大阶段与六大步骤

阶段一：构建问题

1、识别问题

2、回顾之前的发现

阶段二：解决问题

3、建模或选择变量

4、收集数据

5、分析数据

阶段三：传达结果并基于结果采取行动

6、传达结果并基于结果采取行动

四、步骤1解读：识别问题

即我们需要知道并理解要做什么？发生了什么？这样才能知道我们下一步该做什么。

而在这个过程中，我们需要识别利益相关者是谁，明白最终是谁拍板，就跟做项目一样，你要知道你的受众是谁，对症下药。

同时，在构建问题的过程中要聚焦、了解清晰的范围，始终贯彻一点：你想知道什么？因为用不同的方法得到的结果是不一样的。

下面是详细解读：

（1）构建问题的来源

纯粹的好奇，通常是基于常识或对事物的观察

识别问题

工作相关经验

需要制定一个决策或需要采取行动

需要关注当前存在的问题

创建理论或者辨明现有理论或以往的研究

（2）利益相关者

找到利益相关者（一般是管理者或者决策者）

需要注意的问题

项目跟谁有关？包括需求来源、资源配备、汇报对象等等

是否对需要解决的问题以及你的方案有个大概的了解？

是否能够给到你进行数据分析的必要的资源？

是否支持在决策过程中使用分析和数据？

交流方式、案例等是否与他们的思维和决策方式一致？

是否有计划向利益相关者定期反馈和汇报阶段成果？

管理分析项目的利益相关者

识别所有的利益相关者

记录利益相关者的需求

评估和分析利益相关者的兴趣或影响

管理相关者的预期

采取行动

审核身份和重复步骤

（3）问题聚焦

数据分析不是一次毫无目标的实践，需要让业务需求方明白自己的目标在哪儿，限定分析范围

问题不聚焦，那么分析结果也将不聚焦，结果是分散的

所以需要识别相关利益者，并管理利益相关者的预期，识别最终拍板行动的人。

（4）问题的范围

问题如果很宽泛，数据手机就会变得很困难

不要过早的限制问题或决策的范围，开放性的思考有哪些可选择的方向

问题要是一个可以检验的假设，即：问题要能得出结果。

（5）关键在于：你想知道什么

在分析挖掘过程中，对事物的不同定义方法会对结果造成很大影响

例如：研究顾客喜欢吃什么口味薯片。

一位分析师让顾客记录下每次吃的是哪个品牌的什么口味的薯片

结果精准，但参与度低，受环境影响大

另一位分析师让顾客选择近半年经常吃的薯片是哪个品牌的什么口味的

结果可能不精准，但参与度会高，受环境影响小

五、步骤2解读：回顾之前的发现

有很多其他书本上，没有写这个步骤，没有将其放入数据分析步骤中。但我觉得，回顾过去发现很有必要。

最重要的，应该是了解当前故事的古往今来，避免踩坑，以及避免重复性工作。

（1）回顾之前的发现，思考：

到目前为止这个问题时是如何被构建的?

这个问题可能以何种不同的方式被概念化?

是否有不同类型的发现？

（2）回顾之前的发现，可能带来：

能讲什么样的故事？这个故事与什么有关？

我们更需要什么样的数据？

以前的变量是如何定义的？

我们更可能进行哪种分析？

如何用一种与过往不同的方式来讲述我们的新故事？

第一阶段收尾：问自己10个问题来判断自己是否真的很好的构建了问题

1、是否清晰的定义了一个问题或机会来解决企业的实际问题？

要分析的内容清楚了么？

2、是否有考虑过多种方式来解决问题？

选择的方式是不是最优的？

3、是否识别出了问题的利益相关者，并针对这个问题进行过广泛的交流？

问题不是凭空捏造的，有过充分交流么？

4、是否与利益相关者产生共鸣，且对他们会使用问题的结果来制定决策拥有信心？

你的问题能够带来成果？（谜之问题）

5、一旦问题被解决，决策的内容以及决策的制定者是谁？

后期好收反馈

6、是否对问题的解读是一个由大到小的过程，最后形成了一个需要解决、需要应用数据以及明确可能出现的结果的非常确切的问题？

问题是否是一个渐进明细的问题？

7、是否能够描述出你想讲述的分析故事的类型？

按照自己的故事套路进行分析讲解问题

8、是否有人能够协助你完成这个特定类型的分析故事？

找帮手？更专业

9、是否通过查询，了解是否有与想解决的问题相关的之前的发现或经验？

找过去经验，在巨人的肩膀上做事

10、是否基于之前的发现和所了解到的内容，对问题的定义进行修正？

不断修正自己所要研究的问题

六、步骤3解读：建模或选择变量

这个部分描述不多，因为书的性质就是科普性的不会涉及技术方便，所以作为说明内容，篇幅不多。

建议阅读其中的案例，了解一些案例是怎么选取变量和进行分析的

（1）模型定义

某个现象或问题的一种有目的性的简化呈现。

“有目的性”的意思是这个模型是为解决特定问题而专门建立的

”简化“是我们必须舍弃所有非必须的和无关紧要的细节，并保留最重要、有效、关键的且会造成影响的特征。

（2）变量选取原则

建立模型需要使用逻辑、经验和之前的发现来假设你的独立变量，以及你设法预测或解释的问题，还有会对这个问题产生影响的独立变量。

即便是相当琐碎、高度主观性的决策也能通过定量和建模的方式进行分析

七、步骤4解读：收集与测量数据

数据一般来自于企业的数据库或者Excel，需要注意的是如何对数据进行ETL处理，要熟悉SQL、Excel操作。

对第三步中选定的变量进行数据获取和收集

（1）变量的类型

二元变量：变量只有两个值，即是或否，比如性别

分类变量：比如：眼睛的颜色，国家等

序变量：即排序值

数值（间隔和比率）：即值大小。如：体重、身高等

可以理解为：维度和度量

八、步骤5解读：数据分析

（1）识别出适当的模型，我们需要考虑

需要同时分析多少变量？

需要得到描述性或推论性的问题答案么？

在感兴趣的变量中，什么样的测量是可行的？

（2）变量数目影响模型的选择

两个数值型变量：可能是进行相关性分析；

两个或者几个类别型变量：适合用表格方式呈现分析结果（维度之间的关系）；

两个及以上数值型数据变量：回归分析，或称多远线性回归。

#关键的统计概念和方法#

（1）ANOVA：方差分析

是关于超过两组的均值是否相等的统计检验。

（2）因果关系

事情A（原因）和事件B（影响）之间的关系，这时事件B被认为是事件A的结果。

因果关系需要满足的三个条件：

原因必须在时间和空间上先于产生的影响

当影响起作用时，原因必须已经出现

当影响不起作用时，原因必须消失

理解：先有因才有果，有果必有因，无果因不成。

（3）聚类或聚类分析

将具有同一特征的数据进行分组

相关系数：两个变量或多个变量相互之间的关联程度，范围在-1~1之间

1：正相关

0：无关

-1：负相关

相关性不代表因果性，相关性对因果关系而言是一个必要但不充分条件，即：有因果关系必然有相关性，有相关性不一定有因果关系。

（4）独立变量

指想要预测和解释其未知值的变量。也可称为：被解释变量或者反应变量

（5）因子分析

一个使用了大量变量或目标并披露它们之间的内在联系的统计程序。

目的：用来把大规模的变量压缩成更小规模

用途：常被用来数据简化或者结构识别。

（6）拟合度检验

一个判断样本数据与特定的分布之间的匹配程度的统计检验

1）假设检验

一个用于评估关于现实的假设（声明）的系统性方法。

声明分为：

零假设（H0）：给定的一组观测值之间没有显著的差别或相关性。

备择假设(Ha/H1)：我们希望展示的变化或关系在数据中确实存在。

2）独立变量

一个已知能够用于帮助预测或解释一个独立变量的变量。

也可称为：被解释变量、预测变量或回归量

3）ρ值

当进行一次假设检验时，ρ值提供了在零假设（H0）成立的情况下，数据出现的可能性。

小的ρ值表示来自H0的罕见或异常数据，这时候提供了H0不成立的依据，并支持备择假设的成立

在假设检验中，当ρ值小于显著性水平α时，我们“拒绝零假设”，它通常为0.05或者0.01。

当零假设被拒绝是，结果被称为统计上的显著

4）回归

任何寻求一个预测公式的统计方法，这个公式允许一个独立变量的未知值由来自一个或多个独立变量的已知值来确定。

简单回归分析

使用一个独立变量来预测一个因变量

多元回归分析

使用多元独立变量来预测一个因变量。

逻辑回归分析

使用多元独立变量来预测一个二元的、绝对的独立变量（如：购买/不够买、对/错）

5）决定系数（R^2）

最常用的用于测量一条回归线拟合它所基于的样本数据程度的方法

数值在：0-1之间

它的值越大，模型就越好。说明拟合程度越好

6）显著性水平（α）

当零假设成立时，在所有可能的样本结果中，足够异常来拒绝零假设的结果的（任意的）最大比例被称为显著性水平。

即：显著性水平表示认可一个事件不可能是偶然发生所需的证据量

传统的显著性水平是5%（0.05），显著性水平的值为5%意味着我们需要来自H0（如果H0确实是成立的）的低于5%的概率下会发生的数据，来怀疑H0的正确性并拒绝承认H0成立。

在需要提供更强有力的证据来接受备择假设（比如α=1%［0.01］）的情况下，我们可以使用更严格的显著性水平的值。

在实践中，显著性水平通常通过计算ρ值来判断；小于α的ρ值意味着拒绝H0并支持备择假设。

7）t检验

指检验两组数据的均值是否相等，或者一组数据的均值是否有一个特定的值的统计性检验。

一类错误或α错误

当零假设成立时，一类错误或α错误出现，但是错误被拒绝。在传统的假设检验中，如果ρ值比显著性水平α小时，那么人们拒绝零假设。不正确地拒绝一个正确的零假设的概率等于α，因此，这个错误也被称为α错误。

Ⅰ型错误，拒绝了实际上成立的H0 ，即错误地判为有差别，

这种弃真的错误称为Ⅰ型错误。其概率大小用即检验水准用α表示。α可取单尾也可取双尾。假设检验时可根据研究目的来确定其大小，一般取0．05或者0.01，当拒绝H0时则理论上理论100次检验中平均有5次或者1次发生这样的错误。

二类错误或β错误

Ⅱ型错误，接受了实际上不成立的H0 ，也就是错误地判为无差别，这类取伪的错误称为第二类错误。

第二类错误的概率用β表示，β的大小很难确切估计。当样本例数固定时，α愈小，β愈大；反之，α愈大，β愈小。因而可通过选定α控制β大小。要同时减小α和β，唯有增加样本例数。

统计上将1－β称为检验效能或把握度（power of a test），即两个总体确有差别存在，而以α为检验水准，假设检验能发现它们有差别的能力。

统计学上差别显著与否，与实际意义是有区别的。

如应用某药治疗高血压，平均降低舒张压0.5kPa，并得出差别有高度统计学意义的结论。从统计学角度，说明该药有降压作用，但实际上，降低0.5kPa是无临床意义。

因此要结合专业作出恰如其分的结论。

（7）模型的修正

所有应用了定量模型的分析，必须定期检查模型，确保他们仍然适用并仍然拟合数据。

如果不再适用，那就需要对模型进行一些必要的改变。

至少每年进行一次检查，除非有理由需要更加频繁的进行检查。

九、步骤6解读：传达结果并基于结果采取行动

好故事该有的特征：

（1）在设计好故事的中间部分之前想好出结尾。

分析结果是讲述故事的唯一原因

要想清楚自己希望听众知道写什么？

要清楚你希望他们做什么？

用以上三点来检测要讲的故事的其他部分，只留下能支持你结尾的内容。

（2）把结果进行记录，并付出行动

一个再好的分析，没有进行实践那也是白费。

（3）能用3-5句话讲述故事的基本要点

用最简单的方式，告诉大家你发现了什么。

#讲述分析结果故事的方法#

（1）犯罪现场调查故事

将出现的问题作为“犯罪现场”，并寻找出现问题的本质、解决办法

例如：销售额降低了（犯罪现场），这是为什么（找本质和解决办法）？

（2）尤卡里故事

犯罪现场调查故事类似

不同之处：是一种解决特定问题和目的的方法，用来检验组织战略或商业模式中进行的重大改变。（决定进行某种决策，会带来什么问题）

例如：点外卖的时候，有些店铺强制性要求购买1元的延时服务，那么现在店铺打算取消强制购买话，接单量是否会提升？

（3）疯狂科学家故事

即通过实验进行证明结论

比较适合零售或者银行，对小范围的人群进行实验，分为测试组和对照组，研究两组实验结果的显著性（即A/B Test）

例如：作为宝洁公司的主管，我把商品放在沃尔玛买，和放在普通超市买，沃尔玛能卖掉更多商品么？

（4）调查故事

在已发生现象的基础上，进行观察、编码、分析。

类似于调查问卷的形式进行，然后针对调查所得结果进行分析，（分析师不会试图控制结果）

例如：在一次问卷调查中，样本容量为100，随机进行调查，分析在18-25岁之间，人们的学历水平如何？

（5）预测故事

预测未来会发生什么的一种故事

通过对过往数据的分析和理解，发现导致过去某种现象发生的原因，进而调整策略达到某种商业目的的分析

例如：调查哪有在职超过6个月，没有实际项目成员将会在未来3个月离职？

(6)“情况是这样的”故事

最常见的，仅仅使用数据说明发生了什么的故事

即讲述一个事实，不会用复杂的数学计算。

比如：公司2019年第一季度的财报

十、总结

全文通读下来，我的收获如下：

1、数据分析的3大阶段6大步骤，在书中的示例中有了深刻的理解；

再次重复3大阶段6大步骤：

（1）构建问题：

识别和构建问题

回顾之前的发现

（2）解决问题

建模或选择变量

收集数据

分析数据

（3）传达结果并基于结果采取行动

传达结果并基于结果采取行动

2、了解了在数据分析过程中的注意事项，如

利益相关者的识别与管理；

如何判断自己真的做好了问题构建；

有哪些故事？如何讲故事；

3、自己觉得可以精读地方

文章中关于数据分析的举例；

关键的统计概念和方法；

4、初步构建了自己的数据分析项目的处理套路与做事方法。

结语

每本书关于数据分析步骤的描述可能都会不一样，但基本大同小异，我也会持续优化我的文章。

附上，关于整篇文章的脑图：

以上就是我对该书的理解和梳理，若有错误之处，欢迎大家评论指正。

在学习数据分析的小伙伴们可以私信我，一起讨论交流呀！

也欢迎大家关注我的知乎专栏《数据分析学习之路》，我将持续更新我数据分析学习之路的点点滴滴，与大家共同进步。谢谢大家！

————————————————

原文链接：https://blog.csdn.net/u013480893/java/article/details/90195725