
分享
数据科学有志之士最常见的问题之一是 "对于机器学习,我需要知道多少数学?" 希望进入机器学习领域的学生往往将数学视为一个巨大的入门障碍。
行业中的守门人对这种担忧没有帮助,他们给学生贴上了不合格的标签,除非他们拥有该学科的硕士或博士学位。
那么,为了在数据科学行业工作,你需要知道多少数学?
答案是。没有你想象的那么多。
大多数公司在数据的帮助下解决非常类似的用例。他们要求数据科学家建立机器学习模型,可以预测客户流失,进行细分,并预测销售。
用于解决这些问题的方法是相似的,而且任务变得相当重复。没有必要重新发明轮子,他们使用开箱即用的ML算法。
即使出现了需要建立自定义机器学习模型的情况,对特定主题的直观理解也是足够的。你不需要去深究,也绝对不需要成为数学专家来成为数据科学家。
例如,我们知道梯度下降是用来寻找线性回归中的最佳拟合线的。你不需要开始学习如何解决微分方程,你只需要了解微积分的原理,就可以了解到这是如何做到的。
同样,如果你要用Tensorflow构建一个神经网络--你需要进行大量的矩阵操作,但你将在计算机程序的帮助下进行。由于这个原因,你不需要回去练习解代数方程。你只需要了解它们是如何工作的。
在这篇文章中,我将为你指出一些资源,帮助你开始学习数据科学的数学。我将专注于三个领域--线性代数、微积分和统计。
线性代数
线性代数--从基础到前沿。edX上的这门课程将在本科水平上教你线性代数。它从一个缓慢的空间开始,只要你有高中水平的数学知识,你就可以学习这个课程。
这门课程最好的地方是,它用Matlab中的实际例子教你线性代数,这让你通过算法和编程的视角来看待这个学科。如果你的目标是学习机器学习的线性代数,这种学习方法特别有用。
这个课程可以免费试听。如果你想获得结业证书,你可以申请财政援助。
3Blue1Brown--《线性代数精华》:我以前没有上过这门课,但在我自己寻找数学学习资源的过程中,曾多次遇到它。
许多有志于机器学习的人对这门课程深信不疑,因为它为学习者提供了对线性代数的概念性理解。与其学习任意的公式或机械地推导它们,你将获得对线性代数如何工作的直觉。如果你的最终目标是将这些概念应用于机器学习模型,这将是非常有帮助的。
微积分
我推荐两门为机器学习学习微积分的课程。微积分的本质》是3Blue1Brown开设的一门伟大的微积分入门课程。同样,这将为你提供对微积分概念的直观理解,并深入解释公式背后的意义,而不仅仅是让你记住它们。
接下来,你可以学习3Blue1Brown的神经网络系列。如果你知道如何使用Keras等库实现神经网络,但并不真正了解这些模型背后的工作原理,你应该学习这门课程。它为你提供了梯度下降算法的全面解释,以及其背后的微积分概念。
统计数字
概率与统计:To p or not to p? ?-库塞拉
这是我所学过的最好的统计学入门课程之一,由伦敦大学提供。这门课程是针对主修非数学专业的学生,如商业和金融。
正因为如此,统计学概念的解释方式简单易懂,并有许多真实世界的例子。
学习本课程后,你将对描述性和推断性统计、不同的抽样分布、抽样技术、置信区间以及P值的计算方法有所了解。
所有这些概念都可以直接应用于现实世界的数据分析。
统计学习-edX
这是另一个学习机器学习模型背后的直觉的优秀课程。
与本列表中的其他资源一样,本课程不太注重数学公式,而是以概念的方式解释机器学习模型。
然而,要学习这门课程,建议有一些微积分知识,因为导师倾向于使用符号,否则可能会使你感到困惑。
你将学习线性和逻辑回归等概念,以及正则化技术,如脊和套索回归,以及何时使用它们。有一整堂课专门讨论用于减轻过拟合的技术,并解释了这些技术背后的基本数学直觉。
这是我上过的最有帮助的课程之一,因为它帮助我不再把机器学习模型当作黑盒子。我对不同类型的模型应该用在什么地方,什么时候应该应用降维,以及什么时候执行不同种类的特征选择技术有了了解。
我花了很多时间试图回到过去,学习本科阶段的微积分和线性代数。然而,尽管花了很多时间学习公式和解微分方程,我的知识还是有脱节,因为我从来没有完全理解这些概念与机器学习算法的关系。
上述资源是突破这一障碍的好方法,因为它们让你对机器学习背后的数学有一个概念性的理解,而不是把你带入复杂公式和定理的兔子洞。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-29左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-29CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-29CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-29解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-29解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-29鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-29用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-29从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-29CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-29解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-29用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-29从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-292025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-29PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-29t 检验与 Wilcoxon 检验:数据差异分析的两大核心方法 在数据分析的广阔领域中,判断两组或多组数据之间是否存在显著差异是一项 ...
2025-07-29PowerBI 添加索引列全攻略 在使用 PowerBI 进行数据处理与分析时,添加索引列是一项极为实用的操作技巧。索引列能为数据表中的每 ...
2025-07-29CDA 数据分析师必备技能全解析 在数据驱动决策的时代,CDA 数据分析师作为连接数据与业务价值的桥梁,需要具备多元化的技能体系 ...
2025-07-29解析 LSTM 训练后输出不确定:成因与破解之道 在深度学习处理序列数据的领域,长短期记忆网络(LSTM)凭借其捕捉长距离依赖关系 ...
2025-07-29χ² 检验与 t 检验:数据差异分析的两大核心工具 在统计学的方法论体系中,假设检验是验证数据规律、判断差异显著性的核心手段 ...
2025-07-29