登录
首页大数据时代成为一名伟大的数据科学家所需的5项关键技能
成为一名伟大的数据科学家所需的5项关键技能
2022-02-21
收藏

由高级经理(数据科学)Sharan Kumar Ravindran撰写

一个人不需要有天生的天赋就能成为一名成功的数据科学家。然而,要在数据科学中取得成功,需要一些技能。所有这些关键技能都可以通过适当的培训和练习获得。在这篇文章中,我将分享一些重要的技能,为什么它们对数据科学家来说很重要。此外,如何获得这些技能。

批判性思维

数据科学家应该养成批判性思维的习惯。它有助于更好地理解这个问题。除非把问题理解到最细的层次,否则解决方案不可能是好的。批判性思维有助于分析不同的选择,并有助于选择正确的选择。

在解决数据科学问题时,这并不总是一个好的或坏的决定。很多选择都处于好与坏之间的灰色地带。在一个数据科学项目中涉及到如此多的决策。例如,选择正确的属性集、正确的方法、正确的算法、度量模型性能的正确度量,等等。它需要更多的分析和清晰的思考来选择正确的选项。


培养批判性思维的一个简单方法就是像孩子一样好奇。问尽可能多的问题,直到没有更多的问题。我们问得越多,理解得越多。我们对问题理解得越好,结果就越好。

让我用一个例子来演示批判性思维。让我们考虑以下电信公司的场景。我们要识别忠诚的高净值客户。为了识别这个客户群体,我们必须从一系列问题开始,

  • 客户有哪些不同的个人资料类别?
  • 顾客的平均年龄是多少?
  • 一个顾客花多少钱?
  • 客户互动的频率是多少?
  • 客户是否按时付账?
  • 是否有任何迟付或漏付的情况?
  • 客户的终身价值是什么?

这些有助于识别精英客户。它有助于组织确保这些客户体验到最好的服务。

有一些技巧有助于提高批判性思维能力。其中一种技巧是第一性原理思维。它是一个有助于更好地理解问题的心智模型。下面是一个使用第一性原理解决数据科学问题的示例。

如何运用第一性原理思维解决数据科学问题?

心智模型是帮助清晰思考和更好决策的惊人工具。因此,采用心智模型有助于提高你的批判性思维能力。这里有一篇文章强调了在工作中采用心智模型的好处。

5个心智模型,帮助提升您的数据科学职业生涯

编码

编码技能对数据科学家来说就像眼睛对艺术家一样重要。数据科学家要做的任何事情都需要编码技能。从多个来源读取数据,对数据进行探索性分析,构建模型,并对其进行评估。


AutoML解决方案会发生什么?近年来有许多AutoML产品出现。许多人甚至认为很快就不需要任何编码技能了。让我们举一个例子,

  • 有2家公司,A公司和B公司
  • 他们都在使用最流行的AutoML产品
  • 他们能够使用AutoML解决几个数据科学问题
  • 现在他们中的一个想主宰市场
  • 能够在使用AutoML解决方案实现的解决方案之上做的公司将有更好的机会。

不可否认,AutoML解决方案将在未来得到广泛采用。数据科学团队今天解决的许多标准问题将被自动化。这并不意味着数据科学工作的结束,也不意味着数据科学家编写代码的需求的结束。它将使数据科学团队能够专注于新的问题。

今天被捕获的数据量如此之高。今天,许多组织只使用了可用数据的一小部分。有了AutoML,焦点将转移到未被探索的领域。

你是否对数据科学感兴趣,但觉得自己没有编码技能?这里有一篇文章将帮助您学习为数据科学编写代码。

不会编码?以下是学习为数据科学编写代码的最佳方法

数学

数学是数据科学家需要理解的另一项重要技能。在学习数据科学时,你不知道一些数学概念是可以的。如果不了解数学概念,就不可能成为一名出色的数据科学家。


让我举一个简单的例子,说明数学概念在解决问题时是如何有用的。让我们选择客户流失分析。

  • 我们将从了解不同组客户的行为和特征开始。一种方法是选择不同的样本数据并寻找模式。这里需要的数学概念是统计和概率
  • 为了有效地进行数据分析,对线性代数的理解将非常方便
  • 假设我们想建立一个模型来预测有可能流失的用户。为了理解梯度下降的概念,微积分知识将是有帮助的。如果您正在使用决策树,那么信息论的知识将有助于理解构建树的逻辑。
  • 如果你期待着优化参数,那么运筹学和优化的知识可能会有所帮助。
  • 为了有效地实现模型评估,代数等数学概念可能非常有用

这还不是全部,没有数学就没有机器学习算法。这并不意味着你需要成为一名数学家才能成为一名成功的数据科学家。它所需要的只是高中数学水平。

如果你有兴趣学习数据科学的数学。这是最适合你的课程。

数据科学数学

协作

一个数据科学家不能孤立地工作。一个数据科学家应该与多人协作以确保项目的成功。即使在今天,许多数据科学项目也失败了。大多数失败的首要原因是团队之间缺乏理解和合作。


解释跨不同团队协作和工作的重要性。让我们考虑一个场景,其中数据科学团队正在与客户增长团队合作。目的是了解客户流失的原因。

你决定和几个不同的团队谈谈,他们是这样说的

增长团队-客户流失主要是由于竞争提供的优惠

营销团队-产品团队发布的新特性可能会导致一些问题,从而导致客户流失

产品团队-营销团队只是专注于吸引大量新客户,而没有建立客户的价值或意图

客户支持小组-许多客户报告了许多与支付有关的问题。这可能是客户流失的原因

如果您没有与其他团队交谈,您将根据增长团队提供的信息开始解决这个问题。你不能仅仅依靠一个团队的投入来解决一个问题。即使增长团队是这里的主要发起人,仅仅依赖他们提供的投入也是不够的。为了获得一个整体的图像,您需要与不同的利益相关者交谈。当你限制与你一起工作的人或团队时,来自这些人的偏见会传递到你正在构建的解决方案中。

此外,在许多情况下,数据科学团队需要与数据工程和其他技术团队密切合作。没有良好的合作努力,就不会有成功。

沟通与讲故事


  • 在项目中投入的努力量
  • 在生产中部署的最终机器学习模型的准确性
  • 从探索性分析中发现的见解

如果解决方案没有很好地传达给利益相关者,所有这些都是无用的。数据科学中涉及的问题和解决方案通常要复杂得多。在将它们传达给业务之前,简化它们是非常重要的。在交流中使用讲故事的方法很有帮助。

让我举一个例子,更简单地解释良好沟通的重要性。让我们考虑以下场景。数据科学团队正在研究一个预测模型,以预测零售能源客户的能源使用情况。数据科学团队需要说服业务和基础设施团队拥有和运行至少10个不同的模型以获得更好的准确性的重要性。这意味着更高的计算能力的使用和更多的时间来训练模型。

选项a-您使用用于将客户分组到不同组中的聚类技术,因此需要为每个组建立一个模型。

这里的问题是,业务团队还没有被告知为每个组实际使用一个模型的好处。因此,如果成本很高,他们可能不会被说服。

选项B-从客户的配置文件和特征开始。您可以显示客户的能源使用模式。你向业务团队展示了独特的模式,比如一些家庭在周末几乎使用可以忽略不计的电力,可能是因为他们通常倾向于在不同的地方度过周末。同样,你展示了独特的模式,因此你解释了一个模型不能适合所有这些不同的客户,因此至少需要每个10个不同的模型来迎合10个不同的独特类别的客户。

现在,企业明白了拥有这么多不同模型的重要性。他们可以很容易地将增量收益与所需的基础设施成本进行比较,以评估选项。

数据科学团队的工作是向利益相关者清楚地传达这个想法。这不是一项容易的工作,因为大多数人对数据科学的知识有限。只有当企业从中发现价值时,数据科学项目才被认为是成功的。

改善组织中协作的一个好方法是提供一个在团队之间有良好信息流动的环境。

领导技能-好的拥有

Last but not least is leadership skills. Most organizations have a small data science team and they generally work on different sets of problems. It is very common for a data scientist to get pulled into different meetings and for Adhoc questioning. It is the job of the data scientist to decide when to say yes and when to say No. It is very important to set the priorities right.

此外,数据科学家需要有一个清晰的思考过程,并应该有能力预见结果。很多时候,业务团队会有很大的压力来加速分析。数据科学家的角色是管理期望并产生高质量的结果。

保持联系


  • 如果你喜欢这篇文章并对类似的文章感兴趣,请在Medium上关注我。订阅Medium,可以获得数千篇与职业、金钱等相关的文章。
  • 我在YouTube频道上教授和谈论各种数据科学话题。在这里订阅我的频道。
  • 在这里注册tomy电子邮件列表,获取更多数据科学提示,并与我的工作保持联系



数据分析咨询请扫描二维码

客服在线
立即咨询