数据分析入门方法论-CDA数据分析师官网

数据分析入门方法论

2016-10-28

数据分析入门方法论

关于数据分析，最重要的是思路和方法论，无论是什么工具，最终的输出无非就是：

有价值的结论（对应分析报告）

有价值的决策过程（对应机器学习模型）

从提出问题入手，例如流量、留存率、新增用户为什么发生变化，练习如何解决问题：

你会提出哪些假设？

如何验证这些假设？（统计方法）

如何取数？（SQL / Hive / Spark）

如何清洗和整理数据？（R / Python Pandas / PySpark）

如何可视化？（Excel / FinBI / R ggplot2 / Python matplotlib / Spark Zeppelin）

以怎样的方式展示给非技术人员？（PowerPoint / Tableau / FinBI / iPython Notebook / R Markdown）

如何提出假设？

问题的发现常常是基于常理或者过往经验，所以提出假设的方式大多也是从经验事实出发。比如根据你研究问题的需要，你需要验证哪个需求结论，以及你自己也可以提出基于事实层面上的基本假设。例如用户（UV）上升，但是流量反而减少，UV一般是跟随着流量成正相关的。所以这里不是流量这块除了问题就是用户这边出现新情况。

假设是流量的问题，流量来源于渠道，是否是减少了某些效果差的渠道而专注于一些优质渠道，带来了这样好的结果。

如果是用户问题，用户数的增长是新用户还是老用户带来的，如果都有，各占多少分成。

当然，还得排除一些技术问题，是否是统计口径出现了问题。

如何验证这些假设？

将每一种假设都列举在纸上，每一条都细分，根据主题的类似性做出分类，同一类型的假设，按照可能性依次排列，建立金字塔模型。同一层级划分维度，比如时间、地区等其他属性，构建模型。

如何取数？

SQL是最基本的数据库语言，无论从什么数据库、数据仓库、大数据平台取数，都需要掌握。

Hive和Spark都是基于大数据的，Hive可以将结构化的数据文件映射为一张数据库表，通过类SQL语句快速实现简单的MapReduce统计。

清洗和处理数据

没有高质量的数据，就没有高质量的挖掘结果，有时候分毫之差就会影响结果的判断。原始数据出现不一致、重复、不完整（感兴趣的属性没有值）、存在错误或异常（偏离期望值）的数据。这些都可通过

数据清洗：去掉噪声和无关数据

数据集成：将多个数据源中的数据结合起来存放在一个一致的数据存储中

数据变换：把原始数据转换成为适合数据挖掘的形式

数据归约：数据立方体聚集，维归约，数据压缩，数值归约，离散化和概念分层等

可视化&展示

分析的结论要用合适的方式表达，可视化工具是最后一步也是不可或缺的工具。

如果使用常规Excel或者传统报表工具，可以将做成的图表贴至PPT中，涉及Excel的高级功能，就需要学习VBA和数据透视表，但Excel适合已经处理好的成品数据。一旦涉及大数据量或频繁链接数据库，一些带有接口的数据可视化工具或报表工具就比较适合。

最后，从提出问题到输出结论，作为数据分析师的你可能使用各种工具，具体要使用哪一种可根据具体情况而定。

Hive SQL 大数据数据分析透视表数据透视 matplotlib 数据透视表

数据分析咨询请扫描二维码

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析入门方法论

考试指南

报考指南

热门栏目