登录
首页精彩阅读想学数据分析?告诉你这些不可不知的入门问题
想学数据分析?告诉你这些不可不知的入门问题
2016-10-25
收藏
10月23日下午,第一期「数据分析成长交流会」在CDA数据分析研究院成功举办啦!


数据分析成长交流会主要针对行业小白,让更多的人了解数据分析,理清学习思路,制定学习计划。

本次活动邀请了CDA数据分析就业培训班的钱小菲老师带来了「数据分析成长」主题分享,还与现场的小伙伴们进行了面对面交流。小编现将主要内容整理如下,以飨读者:

我们首要考虑的是如何真正的踏入这个门槛,而不是徘徊在数据分析门外。

大概可以分为三个阶段:初识分析、进阶工具、定位方向。

首先初识分析阶段,你需要掌握的工具大概为:Excel中级水平、SPSS初级水平、MySQL入门,而需要掌握的知识有 :统计基础、概率论、数据分析师的流程概念、数据库的概念和基础的知识。

Excel作为初级分析者的中流砥柱是必须要的,而初级的SPSS知识,再结合Excel和统计知识,就可以做很多初级的统计分析相关的工作了,此时你就勉强算得了半个数据分析师了,当然也只能算半个。

然后,你需要学习一些必须要的进阶的工具,SPSS的进一步掌握,有助于你学习了解常用的算法模型,并且对数据分析的流程步骤的方法有个概览。然后学习R,进一步掌握各类统计分析方法和算法模型,并对编程有一定的了解。

R之后是Python或者SAS的学习,根据你的行业需要去选择,你需要能够使用编程语言完成自己的工作。

在学习了解这么多的工具算法模型之后,你需要结合自己的特点对自己的方向做一个定位,R/SAS/Python你需要精通一门,然后你还需要熟悉掌握mysql常用的命令,当然Office系列的你也需要熟悉。同时你需要针对性的去学习掌握自己行业的业务背景和精通那些使用的最多的算法。

前面介绍的那么多的数据分析的工具,但是当一些公司的数据量级达到了较高级别,比如TB或者PB级的时候,前面传统的数据分析工具就无能为力了。尤其是需要实时计算,或者本身就需要使用这些大量数据进行运算的算法的时候,就必须要使用大数据的技术了。

说到大数据就不得不提Hadoop,那么它到底是一个什么呢?

Hadoop是一个由Apache基金会开发的分布式系统基础架构,很多不足以自己开发大数据平台的具有大数据需求的公司基本都在使用它,所以大家应该对它有一定了解。

大数据必定有大量级的数据,传统的数据库自然是无法实现存储功能,那么这些数据是如何存储的呢?Hive就展示出了它的特色,Hive是基于Hadoop的一个数据仓库工具,它可以通过类SQL语句快速实现数据统计分析,既简单又快捷。相对前面的SAS、SPSS等分析软件,大数据分析更多是用的是Spark,Spark是一种与Hadoop相似的开源集群计算环境,不同之处在于Spark基于内存计算,工作负载更优越,计算更快速,可以用来构建大型的、低延迟的数据分析应用程序,也是目前很多公司在使用的一个大数据分析工具,而且它有许多接口,可以和java、R、Python实现无缝衔接,更加方便。

那么在你学习的过程中,你自己处于什么样的位置呢?

当你掌握了Excel的常用函数,了解了VBA,并且掌握SPSS,能够进行常用的统计分析,初步了解一些sql语言,那么你就能算得上是一个业务分析师

如果你想做一个高级数据分析师,或者是数据挖掘工程师,那么你就需要熟练掌握SQL语言,理解常用的算法模型,并能够用于解决企业的实际问题,当然你至少需要精通R/SAS/Python中的一种或几种。

如果你在大数据平台下工作,除此之外你还需要熟练使用sparkHive


问答整理如下:

丨问题:学文科的转行去学数据分析会比较吃亏吗?

其实并没有说文科理科哪个更有优势的说法,可能理科出身的人能够用更短的时间学习,但并不意味着就是一个好的数据分析师了,文科对于业务等等的理解能力相对也会更好一点,所以这个是各有特长,没有说是不是吃亏的说法。

丨问题:数据分析在哪些公司用的比较多?是不是只有大公司才需要数据分析师?

并不是这样,只有少数的传统行业不怎么需要数据分析师,其他的像零售、餐饮、制造、金融以及绝大多数的互联网相关行业都需要配备数据分析人才。比如SPSS就是中小企业用的多,所以不存在之余大公司才需要数据分析师的现象。

丨问题:对于即将毕业的大四学生,想从事数据分析的行业,现在应该从哪些方面入手

其实,我们往期有很多学员就是大四没有毕业的,对于你来说,如果是数据分析相关的专业的(统计、计算机、数学),那么你可能需要一份好点的数据分析的实习机会来掌握了解数据分析。如果你不是相关的专业的,那么你现阶段最需要做的是补充自己的知识基础(或者报个数据分析的培训)。

丨问题:数理统计和概率论的知识是不是需要非常深入,就像很多都是数学专业的做数据分析

数理统计这类基础的知识,肯定是不嫌多的,但是并不是需要你有多深入,在做分析工作的时候,你需要了解知道,但是并不是需要你研究的多深入,多数时候你知道它是什么,怎么用,怎么解释结果也就够了。

我身边做数据分析的,并没有多少是实打实的科班出身,所以不用太刻意自己的背景,这是加分项但不是决定项。

丨问题:往期转行的学员中,通常学习比较难的地方有哪些?

这个也是因人而异的,可能没有接触过编程相关的学员,刚开始在接受编程的一些理念和用编程的思维解决问题时比较难,但是逻辑思维较好的就不会觉得有困难,而未接触过统计相关的部分人会觉得需要时间多看几遍,才能很好的理解统计的一些概念。

丨问题:行业对应的常用的算法都是哪些?

由于企业之间的业务差异,可能同行的也会有些差异,但是用的很多的算法有

线性回归逻辑回归决策树推荐系统、K均值/k最临近等等易于解释的算法,当然也有用的比较多像支持向量机神经网络等不太好解释,但是有时效果比较好的算法。

第一期交流会结束,没赶上的可以期待一下11月中旬的第二期,届时将有更多精彩哦~

数据分析咨询请扫描二维码

客服在线
立即咨询