
由高级经理(数据科学)Sharan Kumar Ravindran撰写
一个人不需要有天生的天赋就能成为一名成功的数据科学家。然而,要在数据科学中取得成功,需要一些技能。所有这些关键技能都可以通过适当的培训和练习获得。在这篇文章中,我将分享一些重要的技能,为什么它们对数据科学家来说很重要。此外,如何获得这些技能。
数据科学家应该养成批判性思维的习惯。它有助于更好地理解这个问题。除非把问题理解到最细的层次,否则解决方案不可能是好的。批判性思维有助于分析不同的选择,并有助于选择正确的选择。
在解决数据科学问题时,这并不总是一个好的或坏的决定。很多选择都处于好与坏之间的灰色地带。在一个数据科学项目中涉及到如此多的决策。例如,选择正确的属性集、正确的方法、正确的算法、度量模型性能的正确度量,等等。它需要更多的分析和清晰的思考来选择正确的选项。
培养批判性思维的一个简单方法就是像孩子一样好奇。问尽可能多的问题,直到没有更多的问题。我们问得越多,理解得越多。我们对问题理解得越好,结果就越好。
让我用一个例子来演示批判性思维。让我们考虑以下电信公司的场景。我们要识别忠诚的高净值客户。为了识别这个客户群体,我们必须从一系列问题开始,
这些有助于识别精英客户。它有助于组织确保这些客户体验到最好的服务。
有一些技巧有助于提高批判性思维能力。其中一种技巧是第一性原理思维。它是一个有助于更好地理解问题的心智模型。下面是一个使用第一性原理解决数据科学问题的示例。
如何运用第一性原理思维解决数据科学问题?
心智模型是帮助清晰思考和更好决策的惊人工具。因此,采用心智模型有助于提高你的批判性思维能力。这里有一篇文章强调了在工作中采用心智模型的好处。
5个心智模型,帮助提升您的数据科学职业生涯
编码技能对数据科学家来说就像眼睛对艺术家一样重要。数据科学家要做的任何事情都需要编码技能。从多个来源读取数据,对数据进行探索性分析,构建模型,并对其进行评估。
AutoML解决方案会发生什么?近年来有许多AutoML产品出现。许多人甚至认为很快就不需要任何编码技能了。让我们举一个例子,
不可否认,AutoML解决方案将在未来得到广泛采用。数据科学团队今天解决的许多标准问题将被自动化。这并不意味着数据科学工作的结束,也不意味着数据科学家编写代码的需求的结束。它将使数据科学团队能够专注于新的问题。
今天被捕获的数据量如此之高。今天,许多组织只使用了可用数据的一小部分。有了AutoML,焦点将转移到未被探索的领域。
你是否对数据科学感兴趣,但觉得自己没有编码技能?这里有一篇文章将帮助您学习为数据科学编写代码。
不会编码?以下是学习为数据科学编写代码的最佳方法
数学是数据科学家需要理解的另一项重要技能。在学习数据科学时,你不知道一些数学概念是可以的。如果不了解数学概念,就不可能成为一名出色的数据科学家。
让我举一个简单的例子,说明数学概念在解决问题时是如何有用的。让我们选择客户流失分析。
这还不是全部,没有数学就没有机器学习算法。这并不意味着你需要成为一名数学家才能成为一名成功的数据科学家。它所需要的只是高中数学水平。
如果你有兴趣学习数据科学的数学。这是最适合你的课程。
数据科学数学
一个数据科学家不能孤立地工作。一个数据科学家应该与多人协作以确保项目的成功。即使在今天,许多数据科学项目也失败了。大多数失败的首要原因是团队之间缺乏理解和合作。
解释跨不同团队协作和工作的重要性。让我们考虑一个场景,其中数据科学团队正在与客户增长团队合作。目的是了解客户流失的原因。
你决定和几个不同的团队谈谈,他们是这样说的
增长团队-客户流失主要是由于竞争提供的优惠
营销团队-产品团队发布的新特性可能会导致一些问题,从而导致客户流失
产品团队-营销团队只是专注于吸引大量新客户,而没有建立客户的价值或意图
客户支持小组-许多客户报告了许多与支付有关的问题。这可能是客户流失的原因
如果您没有与其他团队交谈,您将根据增长团队提供的信息开始解决这个问题。你不能仅仅依靠一个团队的投入来解决一个问题。即使增长团队是这里的主要发起人,仅仅依赖他们提供的投入也是不够的。为了获得一个整体的图像,您需要与不同的利益相关者交谈。当你限制与你一起工作的人或团队时,来自这些人的偏见会传递到你正在构建的解决方案中。
此外,在许多情况下,数据科学团队需要与数据工程和其他技术团队密切合作。没有良好的合作努力,就不会有成功。
如果解决方案没有很好地传达给利益相关者,所有这些都是无用的。数据科学中涉及的问题和解决方案通常要复杂得多。在将它们传达给业务之前,简化它们是非常重要的。在交流中使用讲故事的方法很有帮助。
让我举一个例子,更简单地解释良好沟通的重要性。让我们考虑以下场景。数据科学团队正在研究一个预测模型,以预测零售能源客户的能源使用情况。数据科学团队需要说服业务和基础设施团队拥有和运行至少10个不同的模型以获得更好的准确性的重要性。这意味着更高的计算能力的使用和更多的时间来训练模型。
选项a-您使用用于将客户分组到不同组中的聚类技术,因此需要为每个组建立一个模型。
这里的问题是,业务团队还没有被告知为每个组实际使用一个模型的好处。因此,如果成本很高,他们可能不会被说服。
选项B-从客户的配置文件和特征开始。您可以显示客户的能源使用模式。你向业务团队展示了独特的模式,比如一些家庭在周末几乎使用可以忽略不计的电力,可能是因为他们通常倾向于在不同的地方度过周末。同样,你展示了独特的模式,因此你解释了一个模型不能适合所有这些不同的客户,因此至少需要每个10个不同的模型来迎合10个不同的独特类别的客户。
现在,企业明白了拥有这么多不同模型的重要性。他们可以很容易地将增量收益与所需的基础设施成本进行比较,以评估选项。
数据科学团队的工作是向利益相关者清楚地传达这个想法。这不是一项容易的工作,因为大多数人对数据科学的知识有限。只有当企业从中发现价值时,数据科学项目才被认为是成功的。
改善组织中协作的一个好方法是提供一个在团队之间有良好信息流动的环境。
Last but not least is leadership skills. Most organizations have a small data science team and they generally work on different sets of problems. It is very common for a data scientist to get pulled into different meetings and for Adhoc questioning. It is the job of the data scientist to decide when to say yes and when to say No. It is very important to set the priorities right.
此外,数据科学家需要有一个清晰的思考过程,并应该有能力预见结果。很多时候,业务团队会有很大的压力来加速分析。数据科学家的角色是管理期望并产生高质量的结果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04