登录
首页精彩阅读一个普通数据挖掘工程师的成长经历_数据挖掘工程师辛苦吗
一个普通数据挖掘工程师的成长经历_数据挖掘工程师辛苦吗
2016-12-12
收藏

一个普通数据挖掘工程师的成长经历_数据挖掘工程师辛苦吗

不知不觉毕业两年多了,有些想入门的朋友总想了解一下我是怎么学习数据挖掘数据分析的,我就综合大家常见的问题分享一下自己的经历经验。

首先我不是科班出身,不是学数学的也不是学计算机的,研究生的专业是植物学,而且方向是植物分类,可以说很难和数据挖掘、分析等扯上任何关系。唯一能扯上关系的也就是我舍友做的是生物信息学的研究。

说句丢人的话,本科时上spss课我都不知道在讲什么,现在回忆起来才记得原来那个老师讲的是spss,本科没考过计算机证,原因我每分钟打汉字都不过关,说这些只是说我的基础并不扎实。

需要说明的是我的英语还不错,大一大二通过了四六级考试,大四读了很多英文文献,而研究生时期需要查阅大量文献,我需要给这些文章建立一个数据库,于是年少无知的我就选择了access,选择access的原因并不是我比较熟悉它,而是我的老师用它,我至今也不会太多的操作。这算是我开始接触数据分析了吧?

之所以提这一段经历不是为了说明我起步晚,而是为了说明我个人觉得这个access库的建立锻炼了我英文搜索的能力,我碰到问题,在谷歌里面搜索,很快就能找到答案,谷歌几乎成了我的眼睛。在公司里曾经传说如果我搜不到的内容,别人更不可能搜到。有些年轻人就怕英文,我这里不是崇洋媚外,我们客观的想一想,现在的东西都是从欧美起源的,如果你连这门世界语言都不掌握的话,你获得的资料永远都是二手资料。另外无论你是找函数还是找包、模块,还是为问题寻找答案,英文谷歌搜索会为你节省很多时间。掌握这门语言并不是你听说读写样样精通,而是作为一种工具,你应用起来比较方便而已。

善用英文搜索,原因很简单,你所用的语言软件是老外构建的,在国外已经普及,你碰到的问题可能老外早就提出解并决掉了。

在搜索文献的过程中,我喜欢上了经济学人的《graphic details》栏目,发现他们绘制的图非常漂亮、专业,然后我就开始学习excel,尽自己所能将excel图表做的更漂亮更专业,这些经历为我日后做数据可视化打下了坚实的基础,我知道了商务色彩搭配及图表的综合简洁等,我知道怎么将自己与别人做的图表专业的区分开来。后来看了大前研一先生的著作,了解到了专业精神,我曾经写下这样一句话,以此勉励自己:

所谓专业即每一个细节都经得起推敲

后来有一天我舍友看到我用excel做图,嘲笑我孤陋寡闻,推荐我学习R语言,然后我就开始搜寻一些R的入门读物阅读,慢慢的知道了这门语言的皮毛知识。
这个时候就是研二下半学期了,我需要为自己未来的工作做打算了,我是步入园林行业还是就此转行?必须做一个决断,我发现我真的对植物分类提不起精气,而我做家教的学生他妈妈是星空传媒的一个经理,平时他们家待我很好(原因自己想),阿姨说毕业可以介绍我去做市场研究,我了解了一下市场研究,发现他们在用一些数据分析的内容(现在看起来很简单),于是我决定从此踏上数据分析这条不归路。
为了快速上手,熟悉统计学知识,我并没有马上深入的学习R,而是像以往一样懒懒散散的学习(后悔当时没有实战学习),但是我很快开始学习spss,原因是对于无知的我这种傻瓜软件更容易上手。另外我搜索市场研究的岗位他们好像将spss作为硬性要求,当然偶尔也要求熟悉R(这是三年前的事了),于是SPSS帮助我巩固了统计学知识,当简单的统计知识学习完成后,我发现SPSS不够灵活,很多功能也不够用,做的图表和excel一样难看(这对于我来说是无法忍受的),因此网络上有一堆人鄙视,但很推崇R。于是我决定要深入的学习R,我先将SPSS的功能在R里面做了一遍,积累了一些自己的理解,我开始想在自己的论文里做一些数据分析的内容。
现在想来如果我直接实战学习可能会节省更多的时间。

实战更能锻炼技能水平,阅读是一种自我进化

这时已经研研二基本快结束了,开始找工作了。我找工作的目的很明确,如果工作不是做数据分析数据研究,我宁愿放弃工作的机会。非数据研究的岗位我也不去面试,这样又给我省下了大量的时间学习。

后来2013年毕业我去了一家医药市场研究公司,公司的工作并不太忙,我有大量的时间学习。但这时也暴露了我的弱点,公司的数据并不是很规整,往往需要标准化、整形等,而且数据规模也不再是之前练习时那么小,在面对这些脏数据、大点的数据时,我的数据清洗水平显得手足无措,捉襟见肘。周围的人都是excel高手,如果跟着他们学,估计也能成为高手,但是我一定要在R里面做数据清洗整理,反正公司的活不是很忙,我就一点一点的搜索学习积累,这样我的数据处理能力就逐渐扎实起来了,期间使用两天时间阅读了《异类》这本书,感触很深,阅读经历已经写了一篇文章在公众号里分享了。

任何一个工具刚开始学习时都会觉得它很糟糕,其实这并不是工具的问题,而是自己的知识体系跟不上节奏,或者是它的很多方法与自己认知相反,这是不要急于否定他,而是深入的学习他。知识体系是一个积累过程,为自己准备一万个小时计划吧

公司当时做BI(商业智能),于是我接触了市面上常见的BI,包括tableau、QV等等BI软件,我熟悉他们的优劣势,也熟悉他们的数据可视化效果。曾经试图将R的页面融入到BI中,这个时候我熟悉了shiny包,做了一些页面,但我渐渐了解到R作为统计语言做这些通用语言的工作时所暴露的缺点,开始接触python

后来我们公司的合作公司听说我比较熟悉R,他们的总经理就向我请教,我们一起讨论了R和数据挖掘的东西,得知他们在做文本挖掘。于是我闲暇时间开始学习中文文本挖掘的内容,没有成型的数据,我就看帖子,去一个一个的实现,然后积累经验,这时我的R语言操作算的上非常熟练了,从实现到速度优化(并行计算等等)知识已经非常熟练,积累的代码也非常多了。

后来那个经理找我做医院处方数据的挖掘,先给他做一个shiny的demo。我给他做了,没有收一分钱。再后来他请我去他公司负责法院文本挖掘,我没去。但成了他们的外援,仍然没收到钱,他们给这边搭建的一台服务器也帮助我了解了不少Linux的知识。

刚开始锻炼自己的机会远远比钱重要,反正自己闲着也是闲着,但是这只是刚开始

后来公司推出了微信公众号平台,我开始给公司的公众号提供文章。期间为公司写了多篇综合排名的文章,最高阅读量达到4万多,要知道公司的公众号当时的粉丝才两千人左右。后期又制作了评价医院市场趋势的综合指标,现在公司也一直在沿用这套指标,这些工作的小点子都是在公交车上完成的。

工作除了是一中谋生手段外,在学习阶段必须当成自己的极大兴趣去做,要么不做,要么做好

另外我在公交上读完了《Data Mining with R learning by case studies》、《Machine.Learning.for.Hackers》、《R Graphics Cookbook》等书籍,之所以提这三本书是因为我不止一遍的读,这三本书很有特色,前者帮助我学习了各种算法,中间的帮我接触了实际应用中的知识,后者帮我熟练了ggplot的元素结构。我开始学会利用零散的时间,坚持积累也开始学习高度自律。

古之成大事者,不惟有超世之才,亦必有坚韧不拔之志。——苏轼

第一家公司入职的时候我的薪水很低,才5k。但我总能拿到公司的各种奖励、福利,也算是公司对我的一种补助,为了增加自己的收入,我有时也为外面的网站写一些市场评论文章,不过现在不写了。后来也就是2014年十月份,公司由于市场环境等种种原因进行了一次大裁员,也就是在这个时期,公司为我提薪到7k。这时我开始在实战中学习python,也是给自己立一个小项目(比如一篇数据分析的文章),用R做一遍,用python做一遍。

过了年之后,我觉得公司给我再加薪的可能性不大,而我一直在做知识输出,在公司接触不到什么新鲜的东西了,于是我准备跳槽。正好有家公司联系我,开我翻倍的薪水,虽然这个数字对于很多人来说算是中下水平,但是对于当时的我来说算是一个翻身战了,后来就辞职了。

其实我一直幻想着有一个自己想写什么就写什么的平台,于是,我和小伙伴创建了这个公众号,直到现在,我们更注重文章的可读性、趣味性,而不仅仅是技术,但是每一篇文章都可以作为一个小项目锻炼一下希望学习数据分析的同学的技能。

同学长问数据分析一定要学编程吗?还有就是为什么要看英文资料?针对同学们的两个主要问题我编制了这样一段对话,希望你能在对话中找到答案。

为什么学习数据分析?赚钱!什么样的人容易赚钱?技能比别人高的!英语是不是一般人的难关?是不是大家都想学习傻瓜式操作软件?是!!那么如果大家都这么想你应该怎么做?很明显你要做其他人不愿意做的事情才能赚到别人不能赚的钱!

作为分析师一定要将自己和技术区分开来,分析数据挖掘数据本质上是窥视数据背后的人心,挖掘人们的欲望、需求、态度等等,所以数据分析师还要尽量拓宽自己的视野和知识结构,尽自己所能的博览群书。

我的经历大概如此,中间会有各种迷茫各种苍白无力,但是如果你缺少什么,搜集资料,做出判断,努力去争取,这一点总不会错。
作为一个技术人员,要时刻保持自己的知识在进步!这是一种宿命。


数据分析咨询请扫描二维码

客服在线
立即咨询