避免五大误区丨数据科学家新手进阶之路-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读避免五大误区丨数据科学家新手进阶之路

避免五大误区丨数据科学家新手进阶之路

2018-07-12

避免五大误区丨数据科学家新手进阶之路

你为成为数据科学家做好了充分的准备。你参加Kaggle比赛，看了大量的Coursera课程。你感觉已经准备好了，但数据科学家的实际工作将与你的预期大不相同。

本文探讨了数据科学家新手的5个常见误区。这是我在Sébastien Foucaud博士的帮助下一起总结的，他在学术界和行业领域指导年轻数据科学家有超过20年的经验。本文旨在帮助你更好地走向数据科学家进阶之路。

误区1 热衷参加Kaggle比赛

你通过参与Kaggle比赛练习了数据科学技能。如果你掌握决策树和神经网络那就更好了。但其实作为数据科学家，你不需要完成那么多模型融合。通常，你将花80％的时间进行数据预处理，剩下20％的时间用于构建模型。

参加Kaggle比赛的好处在于，给出的数据都很干净，从而你有更多的时间调整模型。但是在实际工作中很少出现这种情况，你需要使用不同的格式和命名方式来汇总不同来源的数据。

你需要做的是，熟练掌握你大部分时间将要做的事，即数据预处理。例如抓取图像或从API收集图像；从Genius收集歌词数据等。为解决特定问题准备所需的数据，然后将其输入到计算机中开始机器学习生命周期。精通数据预处理无疑将大大帮助你成为一名出色的数据科学家，从而让你在公司制定决策中起到关键作用。

误区2 神经网络能搞定一切

深度学习模型在计算机视觉和自然语言处理领域优于其他机器学习模型，但也有明显的缺点。

神经网络需要大量数据。如果样本较少，那么使用决策树或逻辑回归模型效果会更好。众所周知，神经网络难以说明和解释，因此也被称为”黑匣子“。当产品负责人或主管对模型输出产生质疑时，你需要进行解释，而传统的模型更容易解释。

有很多出色的统计学习模型，你需要了解其优缺点，并根据具体任务应用相关模型。除非是用于计算机视觉或自然语音识别等专业领域，否则传统的机器学习算法的成功率会更高。你很快就会发现，像逻辑回归等简单模型是最好的模型。

来源：来自scikit-learn.org的算法表

误区3 机器学习是产品

在过去十年里，机器学习大受吹捧，许多创业公司都认为机器学习能解决任何存在的问题。

来源：过去5年中机器学习的谷歌指数趋势

机器学习永远不应该是产品。机器学习是强大的工具，用于生产满足客户需求的产品。机器学习可以用于让客户收到精准的商品推荐；准确识别图像中的对象；帮助企业向用户展示有价值的广告。

作为数据科学家，你必须以满足客户需求为目标制定计划，在此基础上你才能充分利用机器学习。

误区4 混淆因果关系与相关性

大约90％的数据是在过去几年中产生的。随着大数据的出现，机器学习从业者能够获得大量数据。由于有大量的数据需要分析评估，学习模型也更容易发现随机的相关性。

来源：http://www.tylervigen.com/spurious-correlations

上图显示了美国小姐的年龄与蒸汽、热蒸汽和发热物体导致的谋杀总数。根据这些数据，算法会发现美国小姐的年龄与某些物体导致谋杀间的模式。然而，这些数据点实际上是无关的，并且这两个变量对其他变量没有任何预测作用。

当在数据中发现模式时，要应用你的专业知识。当中是相关性还是因果关系？回答这些问题是从数据中得出分析见解的关键。

误区5 优化错误的指标

开发机器学习模型遵循敏捷的生命周期。首先，你定义概念和关键指标。然后，将结果原型化。接着，不断进行改进直到指标令你满意。

在构建机器学习模型时，记得要进行手动错误分析。虽然这个过程繁琐且费时费力，但可以帮助你在迭代中有效地改进模型。

结语

年轻的数据科学家能为公司提供巨大价值。他们通常是自学成才，因为很少有大学设有数据科学学位。同时他们具有强烈的好奇心，并且对自己选择的领域充满热情，并渴望了解更多的知识。对于刚入行的数据科学家来说，一定要注意以上提到的误区。

注意以下几点：

· 练习数据管理

· 研究不同模型的优缺点

· 让模型尽可能简单

· 检查结论中的因果性和相关性

· 优化最有希望的指标

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

机器学习神经网络计算机视觉逻辑回归决策树商品推荐深度学习大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇干货丨Power Query 数据类型及数据结构

下一篇Python的Asyncore异步Socket模块及实现端口转发的例子

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

避免五大误区丨数据科学家新手进阶之路

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载