
不知不觉毕业两年多了,有些想入门的朋友总想了解一下我是怎么学习数据挖掘、数据分析的,我就综合大家常见的问题分享一下自己的经历经验。
首先我不是科班出身,不是学数学的也不是学计算机的,研究生的专业是植物学,而且方向是植物分类,可以说很难和数据挖掘、分析等扯上任何关系。唯一能扯上关系的也就是我舍友做的是生物信息学的研究。
说句丢人的话,本科时上spss课我都不知道在讲什么,现在回忆起来才记得原来那个老师讲的是spss,本科没考过计算机证,原因我每分钟打汉字都不过关,说这些只是说我的基础并不扎实。
需要说明的是我的英语还不错,大一大二通过了四六级考试,大四读了很多英文文献,而研究生时期需要查阅大量文献,我需要给这些文章建立一个数据库,于是年少无知的我就选择了access,选择access的原因并不是我比较熟悉它,而是我的老师用它,我至今也不会太多的操作。这算是我开始接触数据分析了吧?
之所以提这一段经历不是为了说明我起步晚,而是为了说明我个人觉得这个access库的建立锻炼了我英文搜索的能力,我碰到问题,在谷歌里面搜索,很快就能找到答案,谷歌几乎成了我的眼睛。在公司里曾经传说如果我搜不到的内容,别人更不可能搜到。有些年轻人就怕英文,我这里不是崇洋媚外,我们客观的想一想,现在的东西都是从欧美起源的,如果你连这门世界语言都不掌握的话,你获得的资料永远都是二手资料。另外无论你是找函数还是找包、模块,还是为问题寻找答案,英文谷歌搜索会为你节省很多时间。掌握这门语言并不是你听说读写样样精通,而是作为一种工具,你应用起来比较方便而已。
善用英文搜索,原因很简单,你所用的语言软件是老外构建的,在国外已经普及,你碰到的问题可能老外早就提出解并决掉了。
在搜索文献的过程中,我喜欢上了经济学人的《graphic details》栏目,发现他们绘制的图非常漂亮、专业,然后我就开始学习excel,尽自己所能将excel图表做的更漂亮更专业,这些经历为我日后做数据可视化打下了坚实的基础,我知道了商务色彩搭配及图表的综合简洁等,我知道怎么将自己与别人做的图表专业的区分开来。后来看了大前研一先生的著作,了解到了专业精神,我曾经写下这样一句话,以此勉励自己:
所谓专业即每一个细节都经得起推敲
后来有一天我舍友看到我用excel做图,嘲笑我孤陋寡闻,推荐我学习R语言,然后我就开始搜寻一些R的入门读物阅读,慢慢的知道了这门语言的皮毛知识。
这个时候就是研二下半学期了,我需要为自己未来的工作做打算了,我是步入园林行业还是就此转行?必须做一个决断,我发现我真的对植物分类提不起精气,而我做家教的学生他妈妈是星空传媒的一个经理,平时他们家待我很好(原因自己想),阿姨说毕业可以介绍我去做市场研究,我了解了一下市场研究,发现他们在用一些数据分析的内容(现在看起来很简单),于是我决定从此踏上数据分析这条不归路。
为了快速上手,熟悉统计学知识,我并没有马上深入的学习R,而是像以往一样懒懒散散的学习(后悔当时没有实战学习),但是我很快开始学习spss,原因是对于无知的我这种傻瓜软件更容易上手。另外我搜索市场研究的岗位他们好像将spss作为硬性要求,当然偶尔也要求熟悉R(这是三年前的事了),于是SPSS帮助我巩固了统计学知识,当简单的统计知识学习完成后,我发现SPSS不够灵活,很多功能也不够用,做的图表和excel一样难看(这对于我来说是无法忍受的),因此网络上有一堆人鄙视,但很推崇R。于是我决定要深入的学习R,我先将SPSS的功能在R里面做了一遍,积累了一些自己的理解,我开始想在自己的论文里做一些数据分析的内容。
现在想来如果我直接实战学习可能会节省更多的时间。
实战更能锻炼技能水平,阅读是一种自我进化
这时已经研研二基本快结束了,开始找工作了。我找工作的目的很明确,如果工作不是做数据分析数据研究,我宁愿放弃工作的机会。非数据研究的岗位我也不去面试,这样又给我省下了大量的时间学习。
后来2013年毕业我去了一家医药市场研究公司,公司的工作并不太忙,我有大量的时间学习。但这时也暴露了我的弱点,公司的数据并不是很规整,往往需要标准化、整形等,而且数据规模也不再是之前练习时那么小,在面对这些脏数据、大点的数据时,我的数据清洗水平显得手足无措,捉襟见肘。周围的人都是excel高手,如果跟着他们学,估计也能成为高手,但是我一定要在R里面做数据清洗整理,反正公司的活不是很忙,我就一点一点的搜索学习积累,这样我的数据处理能力就逐渐扎实起来了,期间使用两天时间阅读了《异类》这本书,感触很深,阅读经历已经写了一篇文章在公众号里分享了。
任何一个工具刚开始学习时都会觉得它很糟糕,其实这并不是工具的问题,而是自己的知识体系跟不上节奏,或者是它的很多方法与自己认知相反,这是不要急于否定他,而是深入的学习他。知识体系是一个积累过程,为自己准备一万个小时计划吧
公司当时做BI(商业智能),于是我接触了市面上常见的BI,包括tableau、QV等等BI软件,我熟悉他们的优劣势,也熟悉他们的数据可视化效果。曾经试图将R的页面融入到BI中,这个时候我熟悉了shiny包,做了一些页面,但我渐渐了解到R作为统计语言做这些通用语言的工作时所暴露的缺点,开始接触python。
后来我们公司的合作公司听说我比较熟悉R,他们的总经理就向我请教,我们一起讨论了R和数据挖掘的东西,得知他们在做文本挖掘。于是我闲暇时间开始学习中文文本挖掘的内容,没有成型的数据,我就看帖子,去一个一个的实现,然后积累经验,这时我的R语言操作算的上非常熟练了,从实现到速度优化(并行计算等等)知识已经非常熟练,积累的代码也非常多了。
后来那个经理找我做医院处方数据的挖掘,先给他做一个shiny的demo。我给他做了,没有收一分钱。再后来他请我去他公司负责法院文本挖掘,我没去。但成了他们的外援,仍然没收到钱,他们给这边搭建的一台服务器也帮助我了解了不少Linux的知识。
刚开始锻炼自己的机会远远比钱重要,反正自己闲着也是闲着,但是这只是刚开始
后来公司推出了微信公众号平台,我开始给公司的公众号提供文章。期间为公司写了多篇综合排名的文章,最高阅读量达到4万多,要知道公司的公众号当时的粉丝才两千人左右。后期又制作了评价医院市场趋势的综合指标,现在公司也一直在沿用这套指标,这些工作的小点子都是在公交车上完成的。
工作除了是一中谋生手段外,在学习阶段必须当成自己的极大兴趣去做,要么不做,要么做好
另外我在公交上读完了《Data Mining with R learning by case studies》、《Machine.Learning.for.Hackers》、《R Graphics Cookbook》等书籍,之所以提这三本书是因为我不止一遍的读,这三本书很有特色,前者帮助我学习了各种算法,中间的帮我接触了实际应用中的知识,后者帮我熟练了ggplot的元素结构。我开始学会利用零散的时间,坚持积累也开始学习高度自律。
古之成大事者,不惟有超世之才,亦必有坚韧不拔之志。——苏轼
第一家公司入职的时候我的薪水很低,才5k。但我总能拿到公司的各种奖励、福利,也算是公司对我的一种补助,为了增加自己的收入,我有时也为外面的网站写一些市场评论文章,不过现在不写了。后来也就是2014年十月份,公司由于市场环境等种种原因进行了一次大裁员,也就是在这个时期,公司为我提薪到7k。这时我开始在实战中学习python,也是给自己立一个小项目(比如一篇数据分析的文章),用R做一遍,用python做一遍。
过了年之后,我觉得公司给我再加薪的可能性不大,而我一直在做知识输出,在公司接触不到什么新鲜的东西了,于是我准备跳槽。正好有家公司联系我,开我翻倍的薪水,虽然这个数字对于很多人来说算是中下水平,但是对于当时的我来说算是一个翻身战了,后来就辞职了。
其实我一直幻想着有一个自己想写什么就写什么的平台,于是,我和小伙伴创建了这个公众号,直到现在,我们更注重文章的可读性、趣味性,而不仅仅是技术,但是每一篇文章都可以作为一个小项目锻炼一下希望学习数据分析的同学的技能。
同学长问数据分析一定要学编程吗?还有就是为什么要看英文资料?针对同学们的两个主要问题我编制了这样一段对话,希望你能在对话中找到答案。
为什么学习数据分析?赚钱!什么样的人容易赚钱?技能比别人高的!英语是不是一般人的难关?是不是大家都想学习傻瓜式操作软件?是!!那么如果大家都这么想你应该怎么做?很明显你要做其他人不愿意做的事情才能赚到别人不能赚的钱!
作为分析师一定要将自己和技术区分开来,分析数据挖掘数据本质上是窥视数据背后的人心,挖掘人们的欲望、需求、态度等等,所以数据分析师还要尽量拓宽自己的视野和知识结构,尽自己所能的博览群书。
我的经历大概如此,中间会有各种迷茫各种苍白无力,但是如果你缺少什么,搜集资料,做出判断,努力去争取,这一点总不会错。
作为一个技术人员,要时刻保持自己的知识在进步!这是一种宿命。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15