热线电话：13121318867

十年芳华，逐梦前行 | 记录我的数据科学家成长之路

2021-12-13

作者：Roll

本文为「心中有数」CDA征文作品

小学时，

老师经常问：“你长大以后想当什么？”

我说，我想当一名科学家。

工作后，

领导经常问：“你的职业规划是什么？”

我说，我想做一名数据科学家。

一直以来，我在思索着什么是数据科学家？

直到 CDA 给了我标准，数据科学家是同时具备研究数据本质的科学知识和应用数据科学的领域知识，从数据中获取信息并能解决问题的专家。

在 CDA LEVELⅢ 人才标准中，数据科学家具体指负责企业级商业数据科研项目的高端人才，能利用数据来改进产品、推动业务，并进行整体架构的大数据治理与项目管理，带领团队在该商业领域进行前瞻性研究和战略布局。

从业近10年，我从事过定量分析、数据分析、数据挖掘、算法研究等岗位，做过项目，带过团队，考过很多证书，在行业期刊发过论文，也参加过很多数据建模竞赛，一直在朝着数据科学家的路上努力拼搏。

有时候想写些经验总结，提笔却不知从何写起。刚好近期收到CDA“心中有数”的征文通知，我决定以“数据科学家成长之路”为题总结过去10年工作学习的历程，记录下努力奋斗的时光，与数据同仁们共勉，同时也以此为起点，继续我的数据科学家修炼之路。

01、我的职业之路——厚积而薄发，方能在职场中快速成长

数据科学家的成长之路是在披荆斩棘中砥砺前行，一笔笔的公式推导、一行行的算法代码、一点点的业务积累，一个个的项目实践，汇聚成了数据人的职业素养，成就数据人的价值所在。

我的第一份工作是在上海一家咨询公司从事数据分析师，这一阶段我使用DB2、MySQL、Shell、VBA、SAS、Spss等工具，做过ETL、报表设计、数据集市、数据建模等工作。项目上我负责过人民银行征信中心征信报告异常查询监测数据挖掘子项目，用K-Means聚类、决策树、时间序列分析ARIMA等识别出机构及用户的异常查询行为；负责过某城商行银行信用卡信用评分模型，使用Logistic预测客户违约概率；参与过某股份制银行信用卡存量客户经营、商城产品个性化推荐、集团客户交叉销售等项目，用到了Apriori、C5.0、KNN、Adaboost等算法，同时在平安银行信用卡、人行征信中心做过SAS Base培训。

随着互联网公司崛起，大数据技术、机器学习算法等在项目实践中取得很好应用效果，数据工作者迎来新的发展机遇。大多数的数据从业人员都希望能够进入互联网公司，发挥自己的一技之长，当然我也不例外。2015年，在众多OFFER中，我选择了互联网金融公司作为我的第二份工作，开始“玩转大数据”。

期间，我参与了公司大数据中心的筹建，负责过精准营销团队、算法建模团队。在R盛行的时候，我开始自学R语言编程, 多次参加R语言会议，与R语言大佬们讨论最前沿的算法及应用场景。然而在实际工作过程中R语言安装很多依赖包，且内存管理、运行速度和效率等缺点突出。

因此从2016年开始我逐步转向使用Python和Spark，使用Scikit-learn、Tensorflow等算法框架构建机器学习模型，使用Hive、Hbase等大数据工具处理TB级数据量。我承担公司标签体系构建、客户分层模型、反欺诈模型、精准营销模型、消费信贷产品信用评分模型等项目，也做过数据宽表、数据架构、营销活动效果分析、随机立减算法设计、年度账单数据开发、书写分析报告及汇报材料等工作。

在掌握大数据技术、建模工具之后，到了2017年我想寻求稳定，在特定行业内深耕细作，励志成为行业内的数据科学家。在获得京东金融、百融、阿里、银行等多个OFFER，因为家庭原因我选择回到家乡工作，在一家城商行从事信用卡数据建模工作，当前已参与信用卡A、B、C评分卡构建，以及客户标签体系建设、信用卡资产估值等工作。

在学校实验室里和实际工作中做数据建模项目还是有所不同的，学校里主要是练习算法以及如何调参，工作中业务理解、特征工程显得更为重要。在数据挖掘业内，经常听到有人说“Garbage in, Garbage out(垃圾进,垃圾出)”，用不好或不对的数据去做分析,会产生糟糕或是无用的结论。也就是说，数据和特征决定了模型的上限，而算法只是逼近这个上限而已。

对于即将入坑或已入坑的数据分析师，最重要的是找准定位。

我比较认同CDA的数据人才认证体系，从LEVEL Ⅰ到LEVEL Ⅲ必备技能、知识点以及定位都比较接地气。当然除了掌握必备的技能外，还要熟悉业务知识以及学习做事的方法，在项目中不断锻炼自己提升自己。机会总是留给有准备的人，只有掌握技能、理解业务，同时具备解决问题的思维方法，才能独立承担数据挖掘及数据分析项目。正是由于坚持不断地学习，我才能在短时间内独立负责项目，同时还要感谢领导们对我的帮助。

02、我的考证之路——技多不压身，趁年轻赶快充实自己

为了鼓励员工持证上岗或者提升技能，许多单位都有证书奖励，尤其是银行等金融机构。在行内征求证书奖励意见时，我成功将CDA证书推荐进奖励范围，推荐理由是在数字化转型过程中，数字化人才梯队建设是首要任务，而CDA证书等级体系完美的诠释了如何去培养数字化人才队伍。

从2017年开始，我陆续考取了银行、证券、基金、期货等金融从业证书，通过考试获评统计师、中级经济师职称，同时考取工信部高级数据分析师、Python技术应用工程师（高级）、大数据技术应用工程师（高级）、人工智能应用工程师（高级）等证书，在2019年CDA第十一届认证考试中我通过客观题和项目案例答辩，正式成为CDA LEVEL Ⅲ数据科学家持证人，次年12月通过FRM一级，目前正在积极备战FRM二级。

得益于之前的项目经验和知识积累，我仅仅花了1个月时间复习就通过上机考试。结合我多次考证经历，现将备考经验总结如下。

首先是紧扣考纲，抓住重点。根据考试范围准备备考书籍、视频课、模拟题等材料，搜集前辈们的备考经验，以便制定计划。认真研读考纲，在有限时间内对于考纲要求的要掌握，考纲不要求可以选择放弃。

从2020年开始CDA的考纲有所变化，LEVEL Ⅲ新考纲变得相对容易，也更聚焦数据挖掘和机器学习，因此要紧扣考纲，重点学习数据挖掘技术、数据处理与特征处理、自然语言处理、机器学习算法等内容，吃透书中内容。

其次是制定计划，有序复习。

可以将备考分为三个阶段：

一是基础阶段，将书中知识通读、消化，大纲中的每一部分形成脑图，便于自己系统掌握，这一阶段可以尝试做些练习题，巩固知识点。

二是强化阶段，进行专题突破，针对第一阶段没有掌握的重要知识点重点学习，同时重做第一阶段的错题以及弄清楚解题思路。

三是冲刺复习，查缺补漏，根据考纲形成整体的思维脑图，覆盖所有考点。

最后是调整心态，积极备考。要以平常心积极应对考试，这一阶段可以尝试模拟考试时间练习模考题。

我参加的是CDA第十一届考试，考试时间为2019年12月29日。因为我和我爱人都没有去过武汉，因而将考点选择武汉，考完后先登黄鹤楼、再游户部巷、吃完热干面、又食武昌鱼，雄伟的长江大桥、美丽的武汉大学、人流熙攘的江汉路步行街，穿梭在武汉的大街小巷，享受着武汉的特色美景。很不幸的是考完后过了2周就是武汉疫情爆发期，而我幸运的逃过一劫，相信疫情以后的武汉会越来越好，有机会我将携家人再去武汉一游。

接着说说我的项目案例经历，在通过第一阶段考试后，CDA老师会发一封邮件，附件里有项目案例要求和数据以及答辩的注意事项等。在拿到案例后，我认真研读了项目说明、项目分析要求和评估方式等。我的案例题目是假新闻预测模型的建置及预测，由于对假新闻识别问题比较陌生，在做项目案例过程中我浏览大量的国内外相关的文本挖掘前沿论文，归纳出案例的解决方法。

项目过程中70%时间花在特征工程上，包括特征使用方案、特征获取方案、特征处理方案和特征监控方案，具体框架见下图。

最终建立贝叶斯、BP神经网络、SVM、随机森林、XGBoost的分类模型，同时以词嵌入作为特征，建立CNN、LSTM、RNN等深度学习算法预测模型。

机器学习模型

深度学习模型

我的项目答辩老师是李御玺老师，李御玺老师和蔼认真，认真听完了我的答辩，给予了细致耐心的评价，希望我在文本特征构造多做工作，比如可以从作者偏好、情感分析、实体分析（人名、地名、组织等）、政治敏感等视角分析，增加模型预测精准度。

在完成项目案例过程中可以说受益颇多，整个项目我花了差不多20天的时间，阅读了30多篇文章，写了2000多行Python代码，用了两台电脑去做文本特征提取，项目案例用到了机器学习、深度学习和文本挖掘多种算法。通过这次项目案例实战，我学到了很多前言的算法，尤其是文本特征提取的方法，同时对机器学习、深度学习和文本挖掘有了全面深入的认识。