2022年最实用的11项数据科学技能-CDA数据分析师官网

热线电话：13121318867

首页大数据时代2022年最实用的11项数据科学技能

2022年最实用的11项数据科学技能

2022-02-28

许多“如何将科学数据化”的课程和文章，包括我自己的课程和文章，都倾向于强调统计学、数学和编程等基本技能。然而，最近，我通过自己的经历注意到，这些基本技能很难转化为实际技能，从而使你能够就业。

因此，我想创建一个唯一列表，其中包含实用技能，这些技能将使您具有工作能力。

我谈到的前四项技能对任何数据科学家来说都是绝对关键的，无论你是什么专业的。以下技能（5-11）都是重要的技能，但用法会因你的专业而异。

例如，如果你最有统计基础，你可能会花更多的时间在推断统计上。相反，如果你对文本分析更感兴趣，你可能会花更多的时间学习NLP，或者如果你对决策科学感兴趣，你可能会专注于解释性建模。你明白重点了。

说到这里，让我们深入研究一下我认为最实用的11项数据科学技能：

1.编写SQL查询&构建数据管道

学习如何编写健壮的SQL查询，并在像Airflow这样的工作流管理平台上调度它们，将使您成为一名数据科学家，这是第1点的原因。

为什么？原因有很多：

灵活性:像数据科学家这样的公司可以做的不仅仅是建模数据。公司喜欢全栈数据科学家。如果您能够介入并帮助构建核心数据管道，您将能够改进收集的洞察力，构建更强大的报告，并最终使每个人的生活更加轻松。
独立性:在某些情况下，您需要一个不存在的模型或数据科学项目的表或视图。能够为您的项目编写健壮的管道，而不是依赖于数据分析师或数据工程师，这将节省您的时间，并使您更有价值。

因此，作为数据科学家，您必须是SQL方面的专家。没有例外。

资源

一个完整的15周的课程来掌握数据科学的SQL
模式SQL教程

2.数据争论/特征工程

无论您是在构建模型、探索要构建的新特性，还是在进行深度挖掘，您都需要知道如何处理数据。

数据争论意味着将数据从一种格式转换为另一种格式。

特征工程是数据争论的一种形式，但具体指从原始数据中提取特征。

如何操作数据并不重要，不管是使用Python还是SQL，但您应该能够随心所欲地操作数据（当然，在可能的参数范围内）。

资源

面向机器学习的特征工程基本技术
发现特征工程，如何工程特征和如何获得良好的It-机器学习掌握

3.版本控制/GitHub

当我说“版本控制”时，我特别指的是GitHub和Git。Git是世界上使用的主要版本控制系统，GitHub本质上是一个基于云的文件和文件夹存储库。

虽然Git不是一开始学习的最直观的技能，但对于几乎每一个与编码相关的角色来说，了解它是必不可少的。为什么？

它允许您与其他人并行地在项目上进行协作和工作
它跟踪代码的所有版本（以防您需要恢复到旧版本）

花时间学习GIT。它会带你走很远的！

4.讲故事（即沟通）

建造一个视觉上令人惊叹的仪表板或一个精确度超过95%的复杂模型是一回事。但是如果你不能把你的项目的价值传达给其他人，你就不会得到你应得的认可，最终，你的职业生涯就不会像你应该做的那样成功。

讲故事指的是你“如何”交流你的见解和模型。从概念上来说，如果你想一本图画书，洞察力/模型就是图画，而“讲故事”指的是连接所有图画的叙述。

在科技界，讲故事和交流是被严重低估的技能。从我职业生涯中所见，这种技能是大三学生与大四学生和经理人之间的区别。

5.回归/分类

构建回归和分类模型（即预测模型）并不是你总是要做的事情，但如果你是一名数据科学家，雇主会希望你知道这一点。

即使这不是你经常做的事情，也是你必须擅长的事情，因为你希望能够构建高性能的模型。在我的职业生涯中，到目前为止，我只生产了两个机器学习模型，但它们都是对业务产生重大影响的关键任务模型。

因此，您应该很好地理解数据准备技术、增强算法、超参数调优和模型评估度量。

资源

2021年你应该知道的所有机器学习算法
如何为机器学习模型准备数据

6.可解释的人工智能/可解释的机器学习

许多机器学习算法在很长一段时间内被认为是“黑箱”，因为不清楚这些模型是如何基于各自的输入得出预测的。这种情况现在正在改变，因为广泛采用了可解释的机器学习技术，如SHAP和Lime。

SHAP和LIME是两种技术，它们不仅告诉您每个特征的特征重要性，还告诉您对模型输出的影响，类似于线性回归方程中的系数。

使用SHAP和LIME，您可以创建解释性模型，也可以更好地交流预测模型背后的逻辑。

资源

Shap：解释Python中的任何机器学习模型
用LIME理解模型预测

7.A/B测试（实验）

a/B测试是一种实验形式，您可以比较两个不同的组，根据给定的指标，看看哪个组表现更好。

A/B测试可以说是企业界最实用、应用最广泛的统计概念。为什么？A/B测试允许您将100s或1000s的小改进组合在一起，从而随着时间的推移产生重大的变化和改进。

如果您对数据科学的统计方面感兴趣，A/B测试对于理解和学习是必不可少的。

资源

A/B检验。统计检验的完整指南

8.集群

就我个人而言，我在职业生涯中没有使用过集群，但它是数据科学的核心领域，每个人至少都应该熟悉。

集群是有用的，原因有很多。您可以找到不同的客户细分，您可以使用聚类来标记未标记的数据，您甚至可以使用聚类来为模型找到截止点。

下面是一些参考资料，介绍了您应该了解的最重要的集群技术。

资源

数据科学家需要知道的5种聚类算法
掌握Python机器学习的10种聚类算法

9.推荐系统

虽然我一生中还没有构建过推荐系统，但它是数据科学中最实际的应用之一。推荐系统之所以如此强大，是因为它们有能力推动收入和利润。事实上，亚马逊声称在2019年，由于他们的推荐系统，他们的销售额提高了29%。

因此，如果您曾经在一家公司工作，其中的用户必须做出选择，并且有许多选项可供选择，推荐系统可能是一个有用的应用程序。

10.NLP

NLP，或自然语言处理，是人工智能的一个分支，专注于文本和语音。与机器学习不同，我认为NLP还远未成熟，这正是它如此有趣的原因。

NLP有很多用例…

它可以用于情绪分析，以了解人们对一个企业或企业产品的感觉。
它可以通过分离正面和负面评论来监控一家公司的社交媒体。
NLP是构建聊天机器人和虚拟助手的核心
NLP还用于文本抽取（筛选文档）

总的来说，NLP是数据科学世界中一个非常有趣和有用的利基领域。

资源

每个数据科学家都应该知道的10种NLP技术

11.衡量标准的制定

最近，数据科学家采用了度量开发的职责，因为表面度量依赖于1）数据来计算度量和2）代码来计算和输出度量。

度量开发涉及几个方面：

它涉及到选择一个团队或部门应该使用的正确度量来帮助他们监控他们的目标。
它涉及澄清和建立为使度量标准成立而需要做出的任何假设。
它包括开发度量，对其进行编码，并建立一个管道来定期监控它。

我希望这有助于指导你的学习，并给你一些未来一年的方向。有很多东西要学，所以我肯定会选择几个听起来对你来说最有趣的技能，然后从那里开始。

请记住，这更多的是一篇由轶事经验支持的固执己见的文章，所以从这篇文章中获取你想要的东西。但我一如既往地祝你在学习上取得最好的成绩！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

机器学习 NLP 特征 SQL 推荐系统聚类特征工程集群

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇你的工作会被机器取代吗？

下一篇数据专业人员如何在繁忙的工作中也能给人留下深刻印象

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

2022年最实用的11项数据科学技能

1.编写SQL查询&构建数据管道

2.数据争论/特征工程

3.版本控制/GitHub

4.讲故事（即沟通）

5.回归/分类

6.可解释的人工智能/可解释的机器学习

7.A/B测试（实验）

8.集群

9.推荐系统

10.NLP

11.衡量标准的制定

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载