k_0711

2020-07-19   阅读量: 925

数据分析师

数据分析工作的六个阶段

扫码加入数据分析学习群

数据分析工作的六个阶段


1.理解需求

数据分析首页要做的就是理解需求,只有知道了需求才能展开后续的工作.该步骤需要一定的业务经验.

2.获取数据

数据分为内部数据与外部数据.
◆内部数据即公司内部数仓的数据,数据分析师应当具有相应的SQL技能来获取你想要的对应数据.
◆外部数据为网络上的数据,公司本身是没有的,这时候就需要用到网络爬虫技术在互联网上爬取需要的数据.所有可以用来开发web服务的编程语言都可用来开发爬虫程序,深入学习其中一种框架即可.怎么选择?可以参考以下文章来选择使用哪种爬虫框架:
各大主流编程语言-常用爬虫框架以及优劣分析

3.数据预处理

取得的数据由于各种各样的原因一般都会有缺失、异常等情况.这样的数据是不能直接就用来进行分析与建模的,这时候就需要进行数据清洗操作.
一般根据场景会使用不同的工具对数据进行处理:
Excel:数据量小并且不复杂的话一般采用Excel进行处理
SQL:数据量大并且结构简单可以使用SQL语句进行处理,如sex列的'F'与'M'批量替换成'男'与'女'
ETL:数据量大且结构复杂可以采用ETL工具如kettle或Informatica对数据进行清洗(kettle是开源软件,Informatica是付费软件)
◆……

4.统计分析

数据预处理之后就可以对数据进行统计分析了,这一步需要的数学知识包括:
大数定律、抽样推测规律、秩和检验、回归分析/方差分析等.

5.数据建模

理解数据之后想找出数据之间的关系,方便做出预测或者分类就需要数据结合统计算法、机器学习算法训练出模型.
数据建模需具备统计知识、熟悉机器学习算法并具备一定的编程能力.
常用模型有:线性回归、逻辑回归、决策树、随机森林、支持向量机、神经网络.(大部分可在python的第三方库Scikit-learn中找到)

6.数据可视化&分析报告

最简单的数据可视化工具就是Excel,不过用Excel比较辛苦也比较麻烦.常见的数据可视化工具有:DataV(阿里)、Echarts(百度)、Power BI(微软)、亿信BI(亿信华辰)、FineBI(帆软)等工具.
数据可视化需掌握可视化工具的用法与数理统计知识才能设计出合适的图形来展示分析结果.
数据分析报告则需要掌握业务知识和统计知识才能很好的解读出分析结果的含义


27.5996 4 4 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子