京公网安备 11010802034615号
经营许可证编号:京B2-20210330
由高级经理(数据科学)Sharan Kumar Ravindran撰写
一个人不需要有天生的天赋就能成为一名成功的数据科学家。然而,要在数据科学中取得成功,需要一些技能。所有这些关键技能都可以通过适当的培训和练习获得。在这篇文章中,我将分享一些重要的技能,为什么它们对数据科学家来说很重要。此外,如何获得这些技能。
数据科学家应该养成批判性思维的习惯。它有助于更好地理解这个问题。除非把问题理解到最细的层次,否则解决方案不可能是好的。批判性思维有助于分析不同的选择,并有助于选择正确的选择。
在解决数据科学问题时,这并不总是一个好的或坏的决定。很多选择都处于好与坏之间的灰色地带。在一个数据科学项目中涉及到如此多的决策。例如,选择正确的属性集、正确的方法、正确的算法、度量模型性能的正确度量,等等。它需要更多的分析和清晰的思考来选择正确的选项。
培养批判性思维的一个简单方法就是像孩子一样好奇。问尽可能多的问题,直到没有更多的问题。我们问得越多,理解得越多。我们对问题理解得越好,结果就越好。
让我用一个例子来演示批判性思维。让我们考虑以下电信公司的场景。我们要识别忠诚的高净值客户。为了识别这个客户群体,我们必须从一系列问题开始,
这些有助于识别精英客户。它有助于组织确保这些客户体验到最好的服务。
有一些技巧有助于提高批判性思维能力。其中一种技巧是第一性原理思维。它是一个有助于更好地理解问题的心智模型。下面是一个使用第一性原理解决数据科学问题的示例。
如何运用第一性原理思维解决数据科学问题?
心智模型是帮助清晰思考和更好决策的惊人工具。因此,采用心智模型有助于提高你的批判性思维能力。这里有一篇文章强调了在工作中采用心智模型的好处。
5个心智模型,帮助提升您的数据科学职业生涯
编码技能对数据科学家来说就像眼睛对艺术家一样重要。数据科学家要做的任何事情都需要编码技能。从多个来源读取数据,对数据进行探索性分析,构建模型,并对其进行评估。
AutoML解决方案会发生什么?近年来有许多AutoML产品出现。许多人甚至认为很快就不需要任何编码技能了。让我们举一个例子,
不可否认,AutoML解决方案将在未来得到广泛采用。数据科学团队今天解决的许多标准问题将被自动化。这并不意味着数据科学工作的结束,也不意味着数据科学家编写代码的需求的结束。它将使数据科学团队能够专注于新的问题。
今天被捕获的数据量如此之高。今天,许多组织只使用了可用数据的一小部分。有了AutoML,焦点将转移到未被探索的领域。
你是否对数据科学感兴趣,但觉得自己没有编码技能?这里有一篇文章将帮助您学习为数据科学编写代码。
不会编码?以下是学习为数据科学编写代码的最佳方法
数学是数据科学家需要理解的另一项重要技能。在学习数据科学时,你不知道一些数学概念是可以的。如果不了解数学概念,就不可能成为一名出色的数据科学家。
让我举一个简单的例子,说明数学概念在解决问题时是如何有用的。让我们选择客户流失分析。
这还不是全部,没有数学就没有机器学习算法。这并不意味着你需要成为一名数学家才能成为一名成功的数据科学家。它所需要的只是高中数学水平。
如果你有兴趣学习数据科学的数学。这是最适合你的课程。
数据科学数学
一个数据科学家不能孤立地工作。一个数据科学家应该与多人协作以确保项目的成功。即使在今天,许多数据科学项目也失败了。大多数失败的首要原因是团队之间缺乏理解和合作。
解释跨不同团队协作和工作的重要性。让我们考虑一个场景,其中数据科学团队正在与客户增长团队合作。目的是了解客户流失的原因。
你决定和几个不同的团队谈谈,他们是这样说的
增长团队-客户流失主要是由于竞争提供的优惠
营销团队-产品团队发布的新特性可能会导致一些问题,从而导致客户流失
产品团队-营销团队只是专注于吸引大量新客户,而没有建立客户的价值或意图
客户支持小组-许多客户报告了许多与支付有关的问题。这可能是客户流失的原因
如果您没有与其他团队交谈,您将根据增长团队提供的信息开始解决这个问题。你不能仅仅依靠一个团队的投入来解决一个问题。即使增长团队是这里的主要发起人,仅仅依赖他们提供的投入也是不够的。为了获得一个整体的图像,您需要与不同的利益相关者交谈。当你限制与你一起工作的人或团队时,来自这些人的偏见会传递到你正在构建的解决方案中。
此外,在许多情况下,数据科学团队需要与数据工程和其他技术团队密切合作。没有良好的合作努力,就不会有成功。
如果解决方案没有很好地传达给利益相关者,所有这些都是无用的。数据科学中涉及的问题和解决方案通常要复杂得多。在将它们传达给业务之前,简化它们是非常重要的。在交流中使用讲故事的方法很有帮助。
让我举一个例子,更简单地解释良好沟通的重要性。让我们考虑以下场景。数据科学团队正在研究一个预测模型,以预测零售能源客户的能源使用情况。数据科学团队需要说服业务和基础设施团队拥有和运行至少10个不同的模型以获得更好的准确性的重要性。这意味着更高的计算能力的使用和更多的时间来训练模型。
选项a-您使用用于将客户分组到不同组中的聚类技术,因此需要为每个组建立一个模型。
这里的问题是,业务团队还没有被告知为每个组实际使用一个模型的好处。因此,如果成本很高,他们可能不会被说服。
选项B-从客户的配置文件和特征开始。您可以显示客户的能源使用模式。你向业务团队展示了独特的模式,比如一些家庭在周末几乎使用可以忽略不计的电力,可能是因为他们通常倾向于在不同的地方度过周末。同样,你展示了独特的模式,因此你解释了一个模型不能适合所有这些不同的客户,因此至少需要每个10个不同的模型来迎合10个不同的独特类别的客户。
现在,企业明白了拥有这么多不同模型的重要性。他们可以很容易地将增量收益与所需的基础设施成本进行比较,以评估选项。
数据科学团队的工作是向利益相关者清楚地传达这个想法。这不是一项容易的工作,因为大多数人对数据科学的知识有限。只有当企业从中发现价值时,数据科学项目才被认为是成功的。
改善组织中协作的一个好方法是提供一个在团队之间有良好信息流动的环境。
Last but not least is leadership skills. Most organizations have a small data science team and they generally work on different sets of problems. It is very common for a data scientist to get pulled into different meetings and for Adhoc questioning. It is the job of the data scientist to decide when to say yes and when to say No. It is very important to set the priorities right.
此外,数据科学家需要有一个清晰的思考过程,并应该有能力预见结果。很多时候,业务团队会有很大的压力来加速分析。数据科学家的角色是管理期望并产生高质量的结果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22