
泼冷水:为什么如此多的数据科学家正在抛弃他们的工作?
在你的印象中数据科学是21世纪最性感的工作,他不仅能够带来满意的薪酬,而且领域内大量高技能的“极客” 会帮你享受到思想碰撞的乐趣。
但英国《金融时报》的一篇文章中提到:“数据科学家每周花1-2个小时寻找新工作。”此外,文章还指出“在要找新工作的程序员的列表中,机器学习专家们以14.3%的比例名列第一。数据科学家们紧随其后,为13.2%。”这些数据是从对Stack Overflow 上的64000名程序员的问卷调查中来的。
那么,为什么有这么多的数据科学家在寻找新的工作呢?
在享受这份职业带来的激情与满足之余,总有一些消极的方面在给你泼冷水。下面文摘菌就为你带来四盆冷水,希望不要把你心中的热火扑灭~
期望和现实不符
大数据就像青少年的性爱:每个人都在谈论它,没有人真正知道如何去做,每个人都认为其他人正在做,所以每个人都声称自己在做。
——丹•艾瑞里
这句至理名言十分恰当的描述了初级数据科学家进入数据科学领域的初衷——每个人都不想让自己脱离群体。另外想用酷炫到爆的机器学习算法解决复杂问题,从而对企业产生巨大的影响,也是入坑数据科学的另一重要原因。
你或许认为你能从高超的技能中充分感觉到自我价值的实现。然而,事实往往并非如此。
期望与现实不符是许多数据科学家离开的根本原因。其中原委无法一一列举。
每个公司的情况都不尽相同。但许多公司雇佣数据科学家的时候都没有做好准备从人工智能中获取价值的准备,这就导致了人工智能的冷启动问题。
加之如果这些公司没有高级的或者资深的数据从业人员“撑场面”,那就不可避免的会出现让双方都处在失望和不愉快的境地。数据科学家们想要编写机器学习算法来创造有价值信息,但却做不到。
因为他们的第一项工作是整理数据基础结构或创建分析报告。然后公司会因无法看到可观的价值而感到失望。而这一切都会导致数据科学家们对他们现状的不满。
Robert Chang曾给初级数据科学家提供了一个非常有见地的建议:
你的雄心与你的团队所选择的方向是否一致是非常重要的。如果不一致,那么你就需要找到那些最适合你的项目、团队和公司。
这句话强调了雇主和数据科学家之间的双向关系。如果公司与数据科学家的目标不一致,那么数据科学家另择新主就只是时间问题。
数据科学家们感到失望的另一个原因是他们曾经相信我能够对世界各地的人们产生巨大的影响,而不是仅仅在公司内部。实际上,如果公司的核心业务不是机器学习,你所做的数据科学很可能只会带来小幅的增量收益。
政治最高
数据科学最困难,而且是不得不面对问题是:政治。
当我早上6点起床去学习支持向量机(Support Vector Machines)的时候,我想:“这真的很难!但是,嘿,至少我会变得对我未来的老板很有价值!”如果我能得到DeLorean时间机器,我就会回到过去,并对自己说“胡说八道!”
如果你真的认为了解大量的机器学习算法会使你成为最有价值的数据科学家,那么回到我的第一个观点:期望与现实不符。
事实是,在商业中最具影响力的人需要对你有不错的印象。这可能意味着你必须经常做一些从数据库中获取数据的简单项目,来使正确的人对你有正确的认知。
是的,这些工作令人很沮丧。但是,必不可少。
你想上天
希望能够成为取悦所有人的数据科学家,意味着将成为分析专家,去做报告的人,同时还是数据库专家。但是这往往偏离了数据科学家的含义。
不仅仅是非技术高管对你的技能有太多的假设,技术部门的其他同事也会假定你知道所有与数据相关的东西。你熟悉Spark、Hadoop、Hive、Pig、SQL、Neo4J、MySQL、Python、R、Scala、Tensorflow、A/B测试、NLP,以及任何与机器学习和数据相关内容。
顺便说一句,如果你看到一个岗位对上面这些都有要求,请保持远离。因为这说明这家公司不知道自己的数据策略是什么,他们会随便招人,因为貌似任何懂数据的人都可以解决他们所有的问题。
但它不止于此。既然你懂得这些技术,而且显然又可以拿到所有的数据,别人就会期望你在极短的时间内回答所有的问题。
尝试在可控范围内交底你的短板,你并不会真的得到轻视。而作为一个没有什么行业经验的初级数据科学家,你担心人们会轻视你。
在一个孤立的团队中工作
我们看到的成功的数据产品,往往具有设计巧妙且具有智能功能的用户界面。最重要的是,它至少会有一种有用的输出使得用户可以通过它来解决一个相关的问题。
现在的问题是,如果一个数据科学家只学习如何编写和执行机器学习算法,那么他们就只能是一个成功的项目,一个有价值的产品的团队的一小部分(尽管是必要的)。这意味着孤立工作的数据科学团队将难以提供价值!
尽管如此,许多公司仍然有数据科学团队提出自己的项目并编写代码来尝试解决问题。在某些情况下,这可能是有价值的。例如,如果公司需要的只是每季度一张静态的电子表格,那么它确实可以提供一些价值。
可另一方面,如果目标是为网站构建的优化提供明智的建议,那么这将涉及到许多不同的技能,而这对于绝大多数的数据科学家来说是不可能的(只有真正的数据科学独角兽才能解决这个问题)。
因此,如果项目由一个孤立的数据科学团队承担,它很可能会失败。
因此,要想成为一名数据科学的业界翘楚,仅仅在Kaggle竞赛中做得很好并完成一些在线课程是不够的。寻找一个与你的目标大方向一致的公司,应该是你在寻找能满足你需求的数据科学工作时的一个关键指标。但是,你可能仍然需要调整自己对从事数据科学的期望。
我希望我没有把你从这条路上拉下来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15