京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据现在被认为是增长最快、价值数十亿美元的行业之一。因此,公司和组织正试图最大限度地利用他们已经拥有的数据,并确定他们仍然需要捕获和存储哪些数据。此外,对数据科学家来说,理解这些数字的意义并为混乱的商业问题揭示隐藏的解决方案仍然是一个令人难以置信的需求。最近使用LinkedIn求职工具进行的一项研究显示,2020年的大多数顶级科技职位都需要数据科学技能。
在数据科学领域有许多令人兴奋的机会,对自己进行数据科学方面的教育是获得在这个竞争领域脱颖而出所需的技能和经验的一个很好的方法,也是让你的雇主在竞争中占据优势的一个很好的途径。在进入数据科学领域之前,检查以下问题以评估数据科学是否真的适合您是很重要的。
数据科学是一个如此广泛的领域,包括数据准备和探索、数据表示和转换、数据可视化和表示、预测分析、机器学习、深度学习、人工智能等几个细分领域。可以考虑数据科学能力的三个级别(3个级别是根据现有最好的机器学习教科书之一所涉及的主题定义的:Sebastien Raschka的Python machine learning,3RdEdition),即:Level1(基本级别);Level2(中级级别);和Level 3(高级)。能力从级别1增加到级别3,如下面的图1所示。
数据科学家利用数据得出意义和有洞察力的结论,这些结论可以推动机构或组织的决策。他们的工作职责包括数据收集、数据转换、数据可视化和分析、建立预测模型、根据数据发现提供实施行动的建议。数据科学家在不同的部门工作,如医疗保健、政府、工业、能源、学术界、技术、娱乐等。雇佣数据科学家的一些顶级公司是亚马逊、谷歌、微软、脸书、领英、推特、网飞、IBM等。
数据科学家的工作前景非常乐观,IBM预测到2020年对数据科学家的需求将飙升28%。最近使用LinkedIn求职工具进行的一项研究显示,2020年的大多数顶级科技职位都需要数据科学、商业分析、机器学习和云计算方面的技能(参见下面的图2)。
作为一名数据科学家,你的收入取决于你所工作的组织或公司、你的教育背景、你的经验年限和你的具体工作角色。数据科学家的收入在5万至25万美元之间,工资中位数约为12万美元。这篇文章更多地讨论了数据科学家的工资。
大多数数据科学或业务分析程序都需要以下内容:
因此,为了准备数据科学领域的职业生涯,您可以从攻读定量学科的学士学位开始,例如科学、技术、工程、数学、商业或经济学。
如果您对学习数据科学的基础感兴趣,您需要从某个地方开始。不要被数据科学家招聘广告中提到的编程语言列表所淹没。虽然学习尽可能多的数据科学工具是很重要的,但建议从一两种编程语言开始。然后,一旦您在数据科学方面建立了坚实的背景,您就可以挑战自己,学习不同的编程语言或不同的平台和生产率工具,这些工具可以增强您的技能。根据这篇文章,Python和R仍然是数据科学中使用的两种顶级编程语言。我建议从Python开始,因为越来越多的学术培训项目和行业正在使用Python作为数据科学的默认语言。
如果您在分析学科方面有扎实的背景,例如物理学、数学、工程学、计算机科学、经济学或统计学,那么您基本上可以自学数据科学的基础知识。您可以从诸如X、Coursera、Ordatacamp等平台上的免费在线课程开始。第1级能力(参见图1)可在6至12个月内实现。第2级能力可在7至18个月内实现。第3级能力可在18至48个月内实现。获得一定水平的能力所需的时间取决于你的背景和你愿意在数据科学研究上投入多少时间。通常,具有分析学科(如物理、数学、科学、工程、会计或计算机科学)背景的个人比具有数据科学不互补背景的个人需要更少的时间。
数据科学项目可能很长,要求很高。从问题框架到模型构建和应用,这个过程可能需要几周甚至几个月的时间,这取决于问题的规模。作为一名实践中的数据科学家,在一个项目中遇到障碍是不可避免的。耐心、坚韧和毅力是成功的数据科学职业生涯所必需的关键品质。
数据科学是一个非常实用的领域。请记住,你可能非常擅长处理数据,并构建良好的机器学习算法,但作为一名数据科学家,现实世界的应用程序才是最重要的。每一个预测模型都必须在现实环境中产生有意义和可解释的结果。预测模型必须根据现实进行评估,才能被认为有意义和有用。作为一名数据科学家,你的角色是从数据中提取有意义的见解,这些见解可以用于数据驱动的决策,这些决策可以提高公司的效率或改进业务进行的方式,或者帮助增加利润。
数据科学家需要能够与团队中的其他成员或组织中的业务管理员交流他们的想法。良好的沟通技巧将在这里发挥关键作用,以便能够向对数据科学中的技术概念了解甚少或根本不了解的人传达和呈现非常技术性的信息。良好的沟通技巧将有助于与其他团队成员如数据分析师、数据工程师、现场工程师等建立团结和团结的氛围。
数据科学是一个不断发展的领域,所以要准备好拥抱和学习新技术。与该领域的发展保持联系的一种方法是与其他数据科学家建立网络。一些促进联网的平台是LinkedIn、GitHub和medium(面向数据科学和面向AI出版物)。这些平台对于了解该领域最近发展的最新信息非常有用。
作为一名数据科学家,您将在一个由数据分析师、工程师、管理员组成的团队中工作,因此您需要良好的沟通技巧。您还需要成为一个好的倾听者,尤其是在项目开发的早期阶段,您需要依赖工程师或其他人员来设计和构建一个好的数据科学项目。成为一个优秀的团队成员可以帮助你在商业环境中茁壮成长,并与团队其他成员以及组织的管理员或董事保持良好的关系。
在数据科学中,伦理和隐私考虑是必须的。你需要理解你的项目的含义。对自己诚实。避免操纵数据或使用会故意在结果中产生偏见的方法。从数据收集和分析到模型建立、分析、测试和应用的所有阶段都要符合道德规范。避免为了误导或操纵观众而捏造结果。在解释数据科学项目发现的方式上要合乎道德。
如果你的情况允许,你可以攻读数据科学或商业分析的硕士学位。如果你负担不起硕士学位课程,你可以寻求自学路线来学习数据科学。通常,如果您在分析学科(如物理、数学、经济学、工程或计算机科学)方面有asolid背景,并且您对探索数据科学领域感兴趣,最好的方法是从大规模开放在线课程(massive open online courses,MOOCs)开始。然后,在建立了坚实的基础之后,您可能会寻求其他方法来增加您的知识和专长,例如从教科书中学习,参与项目,以及与其他数据科学抱负者建立联系。
下面是推荐的MOOCs和教科书,可以帮助您掌握数据科学的基础知识。
推荐的MOOC:
数据科学专业证书(HarvardX,通过edX)
分析:基本工具和方法(Georgia TechX,通过edX)
应用数据科学与Python专门化(密歇根大学,通过Coursera)
推荐书籍:
从教科书中学习提供了比从在线课程中获得的更精细和深入的知识。这本书提供了数据科学和机器学习的伟大介绍,包括代码:塞巴斯蒂安·拉什卡的“Python机器学习”。https://github.com/rasbt/python-machine-learning-book-3dition
作者以一种很容易理解的方式解释了机器学习中的基本概念。此外,还包括代码,因此您可以实际使用提供的代码来实践和构建自己的模型。我个人发现这本书在我作为一名数据科学家的旅程中非常有用。我会把这本书推荐给任何有数据科学抱负的人。所有你需要的是基本的线性代数和编程技能,以便能够理解这本书。
还有许多其他优秀的数据科学教科书,如Wes McKinney的“Python for data Analysis”,Kuhn和Johnson的“应用预测建模”,以及Ian H.Witten,Eibe Frank和Mark A.Hall的“数据挖掘:实用机器学习工具和技术”。
总之,我们讨论了14个重要的数据科学领域的常见问题。对于不同的个人来说,基于他们的背景,数据科学的旅程可能是不同的,但本文提供的答案可以为考虑数据科学领域的个人提供一些指导。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15在统计学领域,二项分布与卡方检验是两个高频出现的概念,二者都常用于处理离散数据,因此常被初学者混淆。但本质上,二项分布是 ...
2025-12-15在CDA(Certified Data Analyst)数据分析师的工作链路中,“标签加工”是连接原始数据与业务应用的关键环节。企业积累的用户行 ...
2025-12-15在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12