京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者李·贝克,Chi-Squared Innovations的联合创始人兼首席执行官。
这些年来,我经常被初学者问到,他们应该从哪里开始统计,他们应该首先做什么,他们应该优先考虑统计的哪些部分,以使他们达到他们想要的地方(这通常是一个高薪的工作)。
现在,由于我几乎完全是自学成才,我并不真的认为自己是一个人应该从哪里开始的权威,我很难用任何坚定的信念来回答这个问题。
当然,我对这个问题有一些想法,但这些想法是由我自己的经历决定的。
所以我想我应该联系一下我们的一些统计学朋友,看看他们能给派对带来什么。
这篇文章中的每个统计人员都被问到了同样的问题:
答案令人震惊--结果是如何从零开始成为一名现代统计学家的路线图。
简而言之,如何成为一名未来的统计学家而不需要任何一节课!
统计上存在分歧。一方面,你有那些在统计理论方面受过正规教育的人,另一方面,那些在实践中学习的人。如果你像我一样,你会是一个完全自学成才的统计学家,他渴望地看着另一边甜美的绿草,希望我得到了适当的教育,这样我就不会犯那么多愚蠢的错误。
但其他统计学家对此怎么看?
杰奎琳·诺里斯和我有相同的道路,但她和我的感觉不一样。Jacqueline(@skyetetra)是一名数据科学顾问,也是《在数据科学中建立职业生涯》一书的作者之一,她告诉我,她从未接受过正规的统计学教育,而是学会了工作中需要的一切:
“如果我必须重新开始,我会做和第一次一样的事情!我的背景是应用数学,所以我只在学术界上了一门统计学课程。统计方面的在职教育对我很有帮助,我认识的那些有更严格统计背景的人似乎没有用到他们学到的很多东西。任何时候,我需要一些像不寻常的统计方法,我都可以自己阅读和学习它。作为一名数据科学家,你需要对数据进行更广泛的理性思考,这种思考可能来自许多领域,而不仅仅是统计学。对我来说,这是数学,但我见过许多人从许多背景中获得它。“
我对我从有限的统计教育中获得的职业生涯非常满意--如果我重新开始,我会害怕踩到统计蝴蝶,害怕改变时间表,以至于我最终成为一名用户体验设计师什么的。“
另一方面,你有数据移动我(@datamovesher)的克里斯汀·凯尔,他受过正规的统计学教育。她告诉我:
“我在本科阶段学习的大部分概率和统计都是理论上的。如果我必须重新开始,我会在本科阶段学习更实用的统计课程。但即使我从头开始学习,我也不会改变我在这个主题上攻读正式学位的决定。”
有趣的是,Chatroulette(@lisachwinter)的高级产品研究员丽莎-克里斯蒂娜·温特(Lisa-Christina Winter)给我的建议恰恰相反:
“我会从统计理论开始--通过理解基本概念和它们的重要性。为了把它放在一个易于理解的框架中,我会在简单的实验设计的背景下研究理论。”
那么为什么统计学的理论基础对你来说很重要呢?
“虽然我在第一次学习统计学的时候并不欣赏,但我现在看到了通过使用公式书和分布表手工解决统计问题有多重要。现在和某人一起工作时,很快就会非常清楚,更深入的统计理解是超级重要的。”
怎么会呢?
“在忙于应用统计数据之前,先浏览大量理论统计数据,这让我远离了大量错误,而这些错误是我通过简单地编写语法永远不会意识到的。”
为商科学生创建数据科学课程的马特·丹乔(@mdancho84)有一些关于学习统计的建议可以分享,他告诉我:
“我会做尽可能多的项目--构建产品是你学习的方式。当你遇到错误时,排除故障,创建,学习。这是一种可以直接转移到你的业务中的技能。”
他还告诉所有那些告诉我们如何学会多任务处理的人(我相信你们都知道一位大学讲师告诉你们要学会这一点):
“我会专注于一个学习目标--这很容易分心。这会让你花费数年时间。相反,专注于一个项目或一个学习目标。不是你听到的每一项新技术。这会扼杀你的生产力。专注对学习至关重要。”
OpenIntro团队(@Minebocek)的米恩·切廷卡亚-伦德尔也建议遵循应用的统计路线:
“我从传统的统计学入门课程开始学习统计学,让我们记住一些公式,但并不真正接触数据。在第一堂课之后,我花了一段时间才把这些东西放在一起,理解(并爱上!)整个数据分析周期。”
那么如果她不得不重新开始统计数据,她会怎么做?
“如果我重新开始,我很乐意在可以处理数据的地方开始学习统计学,进行实际数据分析(用R!),并专注于如何提出正确的问题,以及如何开始在真实、复杂的数据集中寻找这些问题的答案。”
Garrett Grolemund在他给统计学新手的建议的第三部分的第二部分(看,我告诉过你我们会再收到他的信,不是吗?)说如果他有机会重新开始统计:
“我会认真思考随机性到底是什么。统计学是这些东西的应用版本,但我们太快就直接跳到数学/计算上了。”
所以我们有了。十分之九cats统计学家更喜欢应用统计学!因此,下次当你为自己没有理论背景而分析数据而感到遗憾时,请记住,你正在遵循许多受过正式培训的统计学家如果有时间的话会走的道路。如果对他们来说足够好,你知道剩下的...
在统计学中有一个分裂,那就是频率论者和贝叶斯论者之间的分裂。
让我们看看统计学家对这场辩论有什么看法。
我们从柯克·伯恩(@kirkdborne),天体物理学家和火箭科学家(嗯,火箭数据科学家)开始。令人惊讶的是,他告诉我他对当宇航员从来没有任何兴趣!
“我不是统计学家,也没有上过一门统计学课程,尽管我在大学里教过。这怎么可能?”
有趣的是,这对我来说也是一样的!他从哪里得到所有的数据?
“我在本科物理中学到了基本的统计学,然后在研究生院及以后,我作为天体物理学家做了多年的数据分析,学到了更多。大约22年前,当我开始探索数据挖掘、统计学习和机器学习时,我学到了更多的统计学。从那以后,我就没有停止学习统计学。”
这听起来有点像我的统计教育。你所需要做的就是从天体物理学中去掉“Astro”,它们是完全相同的!那么他对重新开始统计数据有什么看法?
“我会从贝叶斯推理开始,而不是把早年的所有时间都投入到简单的描述性数据分析中。这会让我更早地学习统计学习和机器学习。我会更早地学会探索和利用贝叶斯网络的奇迹和力量。”
这也是作者、纳什维尔范德比尔特大学医学院生物统计学教授弗兰克·哈勒尔(Frank Harrell)对按下统计重置按钮(@f2harrell)的看法。他告诉我:
当我问Data-Mania的首席执行官莉莲·皮尔森(Lillian Pierson)从哪里开始时,她也提到了贝叶斯统计学:
“如果我必须重新开始统计,我会从3个基础开始:t检验、贝叶斯概率和皮尔森相关性。”
就我个人而言,我没有做过很多贝叶斯统计,这是我在统计方面最大的遗憾之一。我可以看到用贝叶斯方法做事的潜力,但因为我从来没有老师或导师,我从来没有真正找到一种方法。
也许有一天我会--但在那之前,我会继续传递来自这里统计学家的信息。
跟我重复:
学习贝叶斯统计。
学习贝叶斯统计。
学习贝叶斯统计!
谷歌决策情报主管凯西·科济尔科夫(Cassie Kozyrkov)也给了我一个非常有趣的观点,她告诉我她:
“大概喜欢用打印的统计表生篝火吧!”
嗯,阿门,但说真的,你会从哪里开始统计数据?
“模拟!如果我必须从头开始,我想从基于模拟的统计方法开始。”
好吧,我同意你的观点,但为什么特别是模拟呢?
“在大多数STAT101课程中教授的‘传统’方法是在计算机出现之前发展起来的,不必要地依赖于限制性假设,这些假设将统计问题塞进你可以用常见的分布和那些讨厌的过时印刷表格分析解决的格式。”
我抓到你了。那么你对打印的表格到底有什么不同呢?
“嗯,我经常想知道传统课程是否弊大于利,因为我不断看到它们的幸存者犯‘第三类错误'--正确回答错误的方便问题。有了模拟,你可以回到第一原理,发现统计学的真正魔力。”
统计有魔力?
“当然可以!我最喜欢的部分是,通过模拟学习统计学迫使你面对你的假设所扮演的角色。毕竟,在统计学中,你的假设至少和你的数据一样重要,如果不是更重要的话。”
当谈到他的建议时,KDnuggets(@KDnuggets)的创始人格雷戈里·皮亚特斯基建议:
“我会从利奥·布雷曼关于两种文化的论文开始,另外我会研究贝叶斯推理。”
如果你还没有读过那篇论文(这篇论文是开放存取的),Leo Breiman为算法建模做了铺垫,在算法建模中,统计数据被模拟成一个黑箱模型,而不是遵循一个规定的统计模型。
这就是凯西得到的--统计模型很少适合现实世界的数据,我们要么试图将数据复制到模型中(对错误的问题得到正确的答案),要么切换它,做一些完全不同的事情--模拟!
这是我的原始帖子的摘录,它相当长--太长了,不能完整地在这里发布(有30多个世界级的贡献者!)。
如果你喜欢阅读,你可能会有兴趣听听Dez Blanchfield对领域专家的看法,或者Michael Friendly和Alberto Cairo对数据可视化的过去、现在和未来的看法。
还有一本免费下载的书详细介绍了贡献者的所有评论,包括Natalie Dean和Jen Stirrup对信息流和侦探工作的看法。
不要让我从Charles Wheelan和Chelsea Parlett-Pelleriti关于交流的史诗般的建议开始,或者Apache Crunch项目创始人Josh Wills关于统计食谱、微积分和模拟统计之间的比较。
太棒了--你真的不想错过他们!
请过来阅读原始帖子。
简历:李·贝克里斯是一位获奖的软件创建者,他住在黑暗的房间里的键盘后面。只有监视器发出的光照亮他,他渴望找到电灯开关。他在科学、统计和人工智能方面有几十年的经验,他热爱用数据讲故事,然而尽管解释了十几次,他的母亲仍然不明白他是做什么的。他坚持认为数据分析比我们想象的简单得多,他创作了友好、易懂的书籍和视频课程,教授数据分析和统计的基础知识。作为卡方创新公司的首席执行官,有一天他想退休去做一些更简单的事情,比如鳄鱼摔跤。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27对数据分析从业者和学生而言,表结构数据是最基础也最核心的分析载体——CRM系统的用户表、门店的销售明细表、仓库的库存表,都 ...
2025-11-27在业务数据可视化中,热力图(Heat Map)是传递“数据密度与分布特征”的核心工具——它通过颜色深浅直观呈现数据值的高低,让“ ...
2025-11-26在企业数字化转型中,业务数据分析师是连接数据与决策的核心纽带。但“数据分析师”并非单一角色,从初级到高级,其职责边界、能 ...
2025-11-26