
作者李·贝克,Chi-Squared Innovations的联合创始人兼首席执行官。
这些年来,我经常被初学者问到,他们应该从哪里开始统计,他们应该首先做什么,他们应该优先考虑统计的哪些部分,以使他们达到他们想要的地方(这通常是一个高薪的工作)。
现在,由于我几乎完全是自学成才,我并不真的认为自己是一个人应该从哪里开始的权威,我很难用任何坚定的信念来回答这个问题。
当然,我对这个问题有一些想法,但这些想法是由我自己的经历决定的。
所以我想我应该联系一下我们的一些统计学朋友,看看他们能给派对带来什么。
这篇文章中的每个统计人员都被问到了同样的问题:
答案令人震惊--结果是如何从零开始成为一名现代统计学家的路线图。
简而言之,如何成为一名未来的统计学家而不需要任何一节课!
统计上存在分歧。一方面,你有那些在统计理论方面受过正规教育的人,另一方面,那些在实践中学习的人。如果你像我一样,你会是一个完全自学成才的统计学家,他渴望地看着另一边甜美的绿草,希望我得到了适当的教育,这样我就不会犯那么多愚蠢的错误。
但其他统计学家对此怎么看?
杰奎琳·诺里斯和我有相同的道路,但她和我的感觉不一样。Jacqueline(@skyetetra)是一名数据科学顾问,也是《在数据科学中建立职业生涯》一书的作者之一,她告诉我,她从未接受过正规的统计学教育,而是学会了工作中需要的一切:
“如果我必须重新开始,我会做和第一次一样的事情!我的背景是应用数学,所以我只在学术界上了一门统计学课程。统计方面的在职教育对我很有帮助,我认识的那些有更严格统计背景的人似乎没有用到他们学到的很多东西。任何时候,我需要一些像不寻常的统计方法,我都可以自己阅读和学习它。作为一名数据科学家,你需要对数据进行更广泛的理性思考,这种思考可能来自许多领域,而不仅仅是统计学。对我来说,这是数学,但我见过许多人从许多背景中获得它。“
我对我从有限的统计教育中获得的职业生涯非常满意--如果我重新开始,我会害怕踩到统计蝴蝶,害怕改变时间表,以至于我最终成为一名用户体验设计师什么的。“
另一方面,你有数据移动我(@datamovesher)的克里斯汀·凯尔,他受过正规的统计学教育。她告诉我:
“我在本科阶段学习的大部分概率和统计都是理论上的。如果我必须重新开始,我会在本科阶段学习更实用的统计课程。但即使我从头开始学习,我也不会改变我在这个主题上攻读正式学位的决定。”
有趣的是,Chatroulette(@lisachwinter)的高级产品研究员丽莎-克里斯蒂娜·温特(Lisa-Christina Winter)给我的建议恰恰相反:
“我会从统计理论开始--通过理解基本概念和它们的重要性。为了把它放在一个易于理解的框架中,我会在简单的实验设计的背景下研究理论。”
那么为什么统计学的理论基础对你来说很重要呢?
“虽然我在第一次学习统计学的时候并不欣赏,但我现在看到了通过使用公式书和分布表手工解决统计问题有多重要。现在和某人一起工作时,很快就会非常清楚,更深入的统计理解是超级重要的。”
怎么会呢?
“在忙于应用统计数据之前,先浏览大量理论统计数据,这让我远离了大量错误,而这些错误是我通过简单地编写语法永远不会意识到的。”
为商科学生创建数据科学课程的马特·丹乔(@mdancho84)有一些关于学习统计的建议可以分享,他告诉我:
“我会做尽可能多的项目--构建产品是你学习的方式。当你遇到错误时,排除故障,创建,学习。这是一种可以直接转移到你的业务中的技能。”
他还告诉所有那些告诉我们如何学会多任务处理的人(我相信你们都知道一位大学讲师告诉你们要学会这一点):
“我会专注于一个学习目标--这很容易分心。这会让你花费数年时间。相反,专注于一个项目或一个学习目标。不是你听到的每一项新技术。这会扼杀你的生产力。专注对学习至关重要。”
OpenIntro团队(@Minebocek)的米恩·切廷卡亚-伦德尔也建议遵循应用的统计路线:
“我从传统的统计学入门课程开始学习统计学,让我们记住一些公式,但并不真正接触数据。在第一堂课之后,我花了一段时间才把这些东西放在一起,理解(并爱上!)整个数据分析周期。”
那么如果她不得不重新开始统计数据,她会怎么做?
“如果我重新开始,我很乐意在可以处理数据的地方开始学习统计学,进行实际数据分析(用R!),并专注于如何提出正确的问题,以及如何开始在真实、复杂的数据集中寻找这些问题的答案。”
Garrett Grolemund在他给统计学新手的建议的第三部分的第二部分(看,我告诉过你我们会再收到他的信,不是吗?)说如果他有机会重新开始统计:
“我会认真思考随机性到底是什么。统计学是这些东西的应用版本,但我们太快就直接跳到数学/计算上了。”
所以我们有了。十分之九cats统计学家更喜欢应用统计学!因此,下次当你为自己没有理论背景而分析数据而感到遗憾时,请记住,你正在遵循许多受过正式培训的统计学家如果有时间的话会走的道路。如果对他们来说足够好,你知道剩下的...
在统计学中有一个分裂,那就是频率论者和贝叶斯论者之间的分裂。
让我们看看统计学家对这场辩论有什么看法。
我们从柯克·伯恩(@kirkdborne),天体物理学家和火箭科学家(嗯,火箭数据科学家)开始。令人惊讶的是,他告诉我他对当宇航员从来没有任何兴趣!
“我不是统计学家,也没有上过一门统计学课程,尽管我在大学里教过。这怎么可能?”
有趣的是,这对我来说也是一样的!他从哪里得到所有的数据?
“我在本科物理中学到了基本的统计学,然后在研究生院及以后,我作为天体物理学家做了多年的数据分析,学到了更多。大约22年前,当我开始探索数据挖掘、统计学习和机器学习时,我学到了更多的统计学。从那以后,我就没有停止学习统计学。”
这听起来有点像我的统计教育。你所需要做的就是从天体物理学中去掉“Astro”,它们是完全相同的!那么他对重新开始统计数据有什么看法?
“我会从贝叶斯推理开始,而不是把早年的所有时间都投入到简单的描述性数据分析中。这会让我更早地学习统计学习和机器学习。我会更早地学会探索和利用贝叶斯网络的奇迹和力量。”
这也是作者、纳什维尔范德比尔特大学医学院生物统计学教授弗兰克·哈勒尔(Frank Harrell)对按下统计重置按钮(@f2harrell)的看法。他告诉我:
当我问Data-Mania的首席执行官莉莲·皮尔森(Lillian Pierson)从哪里开始时,她也提到了贝叶斯统计学:
“如果我必须重新开始统计,我会从3个基础开始:t检验、贝叶斯概率和皮尔森相关性。”
就我个人而言,我没有做过很多贝叶斯统计,这是我在统计方面最大的遗憾之一。我可以看到用贝叶斯方法做事的潜力,但因为我从来没有老师或导师,我从来没有真正找到一种方法。
也许有一天我会--但在那之前,我会继续传递来自这里统计学家的信息。
跟我重复:
学习贝叶斯统计。
学习贝叶斯统计。
学习贝叶斯统计!
谷歌决策情报主管凯西·科济尔科夫(Cassie Kozyrkov)也给了我一个非常有趣的观点,她告诉我她:
“大概喜欢用打印的统计表生篝火吧!”
嗯,阿门,但说真的,你会从哪里开始统计数据?
“模拟!如果我必须从头开始,我想从基于模拟的统计方法开始。”
好吧,我同意你的观点,但为什么特别是模拟呢?
“在大多数STAT101课程中教授的‘传统’方法是在计算机出现之前发展起来的,不必要地依赖于限制性假设,这些假设将统计问题塞进你可以用常见的分布和那些讨厌的过时印刷表格分析解决的格式。”
我抓到你了。那么你对打印的表格到底有什么不同呢?
“嗯,我经常想知道传统课程是否弊大于利,因为我不断看到它们的幸存者犯‘第三类错误'--正确回答错误的方便问题。有了模拟,你可以回到第一原理,发现统计学的真正魔力。”
统计有魔力?
“当然可以!我最喜欢的部分是,通过模拟学习统计学迫使你面对你的假设所扮演的角色。毕竟,在统计学中,你的假设至少和你的数据一样重要,如果不是更重要的话。”
当谈到他的建议时,KDnuggets(@KDnuggets)的创始人格雷戈里·皮亚特斯基建议:
“我会从利奥·布雷曼关于两种文化的论文开始,另外我会研究贝叶斯推理。”
如果你还没有读过那篇论文(这篇论文是开放存取的),Leo Breiman为算法建模做了铺垫,在算法建模中,统计数据被模拟成一个黑箱模型,而不是遵循一个规定的统计模型。
这就是凯西得到的--统计模型很少适合现实世界的数据,我们要么试图将数据复制到模型中(对错误的问题得到正确的答案),要么切换它,做一些完全不同的事情--模拟!
这是我的原始帖子的摘录,它相当长--太长了,不能完整地在这里发布(有30多个世界级的贡献者!)。
如果你喜欢阅读,你可能会有兴趣听听Dez Blanchfield对领域专家的看法,或者Michael Friendly和Alberto Cairo对数据可视化的过去、现在和未来的看法。
还有一本免费下载的书详细介绍了贡献者的所有评论,包括Natalie Dean和Jen Stirrup对信息流和侦探工作的看法。
不要让我从Charles Wheelan和Chelsea Parlett-Pelleriti关于交流的史诗般的建议开始,或者Apache Crunch项目创始人Josh Wills关于统计食谱、微积分和模拟统计之间的比较。
太棒了--你真的不想错过他们!
请过来阅读原始帖子。
简历:李·贝克里斯是一位获奖的软件创建者,他住在黑暗的房间里的键盘后面。只有监视器发出的光照亮他,他渴望找到电灯开关。他在科学、统计和人工智能方面有几十年的经验,他热爱用数据讲故事,然而尽管解释了十几次,他的母亲仍然不明白他是做什么的。他坚持认为数据分析比我们想象的简单得多,他创作了友好、易懂的书籍和视频课程,教授数据分析和统计的基础知识。作为卡方创新公司的首席执行官,有一天他想退休去做一些更简单的事情,比如鳄鱼摔跤。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14CDA 数据分析师与业务数据分析步骤 在当今数据驱动的商业世界中,数据分析已成为企业决策和发展的核心驱动力。CDA 数据分析师作 ...
2025-08-14前台流量与后台流量:数据链路中的双重镜像 在商业数据分析体系中,流量数据是洞察用户行为与系统效能的核心依据。前台流量与 ...
2025-08-13商业数据分析体系构建与 CDA 数据分析师的协同赋能 在企业数字化转型的浪潮中,商业数据分析已从 “可选工具” 升级为 “核 ...
2025-08-13解析 CDA 数据分析师:数据时代的价值挖掘者 在数字经济高速发展的今天,数据已成为企业核心资产,而将数据转化为商业价值的 ...
2025-08-13解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-08-12MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-12PyTorch 中 Shuffle 机制:数据打乱的艺术与实践 在深度学习模型训练过程中,数据的呈现顺序往往对模型性能有着微妙却关键的影响 ...
2025-08-12Pandas 多列条件筛选:从基础语法到实战应用 在数据分析工作中,基于多列条件筛选数据是高频需求。无论是提取满足特定业务规则的 ...
2025-08-12人工智能重塑 CDA 数据分析领域:从工具革新到能力重构 在数字经济浪潮与人工智能技术共振的 2025 年,数据分析行业正经历着前所 ...
2025-08-12游戏流水衰退率:计算方法与实践意义 在游戏行业中,流水(即游戏收入)是衡量一款游戏商业表现的核心指标之一。而游戏流水衰退 ...
2025-08-12CDA 一级:数据分析入门的基石 在当今数据驱动的时代,数据分析能力已成为职场中的一项重要技能。CDA(Certified Data Anal ...
2025-08-12破解游戏用户流失困局:从数据洞察到留存策略 在游戏行业竞争白热化的当下,用户流失率已成为衡量产品健康度的核心指标。一款游 ...
2025-08-11