成为一名数据科学家后，我的学习道路发生了怎样的变化-CDA数据分析师官网

热线电话：13121318867

首页大数据时代成为一名数据科学家后，我的学习道路发生了怎样的变化

成为一名数据科学家后，我的学习道路发生了怎样的变化

2022-02-28

我对数据科学的热情始于大约两年半前。我在做一份与数据科学无关的工作。对我来说，转行是一个很大的挑战，因为我有很多东西要学。

经过两年的学习和奉献，我终于找到了第一份数据科学家的工作。当然，我的学习之旅并没有停止。当我做数据科学家的时候，我学到了很多新东西。

学习部分不会改变。然而，我学什么和怎么学发生了巨大的变化。在本文中，我想详细说明这些变化。如果你正在努力成为一名数据科学家，你可能会经历同样的事情。

重要的是要强调，作为一名数据科学家需要不断学习。数据科学仍在发展，你需要时刻保持新鲜。我认为数据科学还不是一个成熟的领域，所以新的技术和概念经常被引入。

数据的大小

对于一个现实生活中的问题来说，1000万行并不多。

对我来说，最明显的变化是数据的大小。当我自己学习的时候，我正在练习最多有10万行的数据集。我现在认为它是一个小数据集。数据的大小取决于您正在处理的字段和问题。一般来说，1000万行对于一个实际的问题来说并不多。

使用大型数据集有其自身的挑战。首先，我需要学习能够处理此类数据集的新工具。在我开始做数据科学家之前，熊猫对我来说绰绰有余。然而，它并不是一个拥有大规模数据的高效工具。

允许分布式计算的工具更受青睐。Spark是其中最受欢迎的一个。它是一个用于大规模数据处理的分析引擎。Spark允许您将数据和计算分散到集群中，以实现性能的大幅提升。

幸运的是，可以将Spark与Python代码一起使用。PySpark是一个用于Spark的Python API，它结合了Python的简单性和Spark的高效性。

云计算

另一个大的变化是从本地环境到云环境。当我学习的时候，我在电脑里做所有的事情（即本地工作）。这对练习和学习来说已经足够了。

然而，一家公司在当地经营的可能性极小。大多数公司都在云中工作。数据存储在云中，计算在云中完成，等等。

为了高效地完成工作，获得对云工具和服务的全面理解是非常重要的。云提供商多种多样，但主要参与者是AWS、Azure、Google云平台。我必须学习如何使用他们的服务和管理存储在云中的数据。

Git

作为一名数据科学家，我经常使用的另一个工具是ISGit。我在学习的时候学会了基本的git命令。但是，在生产环境中工作时就不同了。Git是一个版本控制系统。它维护对代码所做的所有更改的历史记录。

Git允许协作工作。你可能会作为一个团队在项目上工作。因此，即使你在一家小型初创企业工作，git也是一项必备技能。项目是用Git开发和维护的。

Git比它从外部看起来要复杂一点。然而，你在做了几个项目后就习惯了。

不仅仅是工具！

工具并不是我学习过程中唯一改变的东西。我处理数据的方式也发生了变化。当您处理一个可随时使用的数据集时，在清理和处理数据方面，您无能为力。例如，在机器学习任务的情况下，您可以在几个简单的步骤后应用模型。

在你的工作中情况会不同。一个项目的很大一部分花费在准备数据上。我不是说只是清理原始数据。这也是重要的一步。然而，探索数据中的底层结构和理解特征之间的关系是至关重要的。

如果您正在处理一个新问题，定义数据需求也将是您的工作。这是另一个需要一套特殊技能的挑战。领域知识是其中必不可少的一部分。

特征工程比机器学习模型的超参数调整重要得多。通过超参数调优可以实现的功能是有限的，因此可以在一定程度上提高性能。另一方面，一个信息特性有可能大大改善一个模型。

在我作为一名数据科学家开始工作之前，我专注于理解机器学习算法和如何调整模型。我现在把大部分时间都花在准备数据上。

我所说的就绪包括许多步骤，例如

清洗和处理数据
重新格式化数据
探索和理解数据

统计知识对这些步骤非常重要。因此，我强烈建议提高你在这方面的知识。它会在你的数据科学生涯中帮助你很多。

结论

有大量的资源来学习数据科学。您可以使用它们来提高您在数据科学的任何构建块中的技能。然而，这些资源并不能提供真正的工作经验。没有错。当你找到第一份工作时，让自己准备好学习一套不同的材料。

谢谢你的阅读。如果你有任何反馈请让我知道。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

机器学习特征数据存储集群分布式计算字段数据处理超参数调优

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇如何成为一名自由数据科学家-4个实用技巧

下一篇数据科学家与ML工程师的区别

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

成为一名数据科学家后，我的学习道路发生了怎样的变化

数据的大小

云计算

Git

不仅仅是工具！

结论

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载