京公网安备 11010802034615号
经营许可证编号:京B2-20210330
分享
数据科学有志之士最常见的问题之一是 "对于机器学习,我需要知道多少数学?" 希望进入机器学习领域的学生往往将数学视为一个巨大的入门障碍。
行业中的守门人对这种担忧没有帮助,他们给学生贴上了不合格的标签,除非他们拥有该学科的硕士或博士学位。
那么,为了在数据科学行业工作,你需要知道多少数学?
答案是。没有你想象的那么多。
大多数公司在数据的帮助下解决非常类似的用例。他们要求数据科学家建立机器学习模型,可以预测客户流失,进行细分,并预测销售。
用于解决这些问题的方法是相似的,而且任务变得相当重复。没有必要重新发明轮子,他们使用开箱即用的ML算法。
即使出现了需要建立自定义机器学习模型的情况,对特定主题的直观理解也是足够的。你不需要去深究,也绝对不需要成为数学专家来成为数据科学家。
例如,我们知道梯度下降是用来寻找线性回归中的最佳拟合线的。你不需要开始学习如何解决微分方程,你只需要了解微积分的原理,就可以了解到这是如何做到的。
同样,如果你要用Tensorflow构建一个神经网络--你需要进行大量的矩阵操作,但你将在计算机程序的帮助下进行。由于这个原因,你不需要回去练习解代数方程。你只需要了解它们是如何工作的。
在这篇文章中,我将为你指出一些资源,帮助你开始学习数据科学的数学。我将专注于三个领域--线性代数、微积分和统计。
线性代数
线性代数--从基础到前沿。edX上的这门课程将在本科水平上教你线性代数。它从一个缓慢的空间开始,只要你有高中水平的数学知识,你就可以学习这个课程。
这门课程最好的地方是,它用Matlab中的实际例子教你线性代数,这让你通过算法和编程的视角来看待这个学科。如果你的目标是学习机器学习的线性代数,这种学习方法特别有用。
这个课程可以免费试听。如果你想获得结业证书,你可以申请财政援助。
3Blue1Brown--《线性代数精华》:我以前没有上过这门课,但在我自己寻找数学学习资源的过程中,曾多次遇到它。
许多有志于机器学习的人对这门课程深信不疑,因为它为学习者提供了对线性代数的概念性理解。与其学习任意的公式或机械地推导它们,你将获得对线性代数如何工作的直觉。如果你的最终目标是将这些概念应用于机器学习模型,这将是非常有帮助的。
微积分
我推荐两门为机器学习学习微积分的课程。微积分的本质》是3Blue1Brown开设的一门伟大的微积分入门课程。同样,这将为你提供对微积分概念的直观理解,并深入解释公式背后的意义,而不仅仅是让你记住它们。
接下来,你可以学习3Blue1Brown的神经网络系列。如果你知道如何使用Keras等库实现神经网络,但并不真正了解这些模型背后的工作原理,你应该学习这门课程。它为你提供了梯度下降算法的全面解释,以及其背后的微积分概念。
统计数字
概率与统计:To p or not to p? ?-库塞拉
这是我所学过的最好的统计学入门课程之一,由伦敦大学提供。这门课程是针对主修非数学专业的学生,如商业和金融。
正因为如此,统计学概念的解释方式简单易懂,并有许多真实世界的例子。
学习本课程后,你将对描述性和推断性统计、不同的抽样分布、抽样技术、置信区间以及P值的计算方法有所了解。
所有这些概念都可以直接应用于现实世界的数据分析。
统计学习-edX
这是另一个学习机器学习模型背后的直觉的优秀课程。
与本列表中的其他资源一样,本课程不太注重数学公式,而是以概念的方式解释机器学习模型。
然而,要学习这门课程,建议有一些微积分知识,因为导师倾向于使用符号,否则可能会使你感到困惑。
你将学习线性和逻辑回归等概念,以及正则化技术,如脊和套索回归,以及何时使用它们。有一整堂课专门讨论用于减轻过拟合的技术,并解释了这些技术背后的基本数学直觉。
这是我上过的最有帮助的课程之一,因为它帮助我不再把机器学习模型当作黑盒子。我对不同类型的模型应该用在什么地方,什么时候应该应用降维,以及什么时候执行不同种类的特征选择技术有了了解。
我花了很多时间试图回到过去,学习本科阶段的微积分和线性代数。然而,尽管花了很多时间学习公式和解微分方程,我的知识还是有脱节,因为我从来没有完全理解这些概念与机器学习算法的关系。
上述资源是突破这一障碍的好方法,因为它们让你对机器学习背后的数学有一个概念性的理解,而不是把你带入复杂公式和定理的兔子洞。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11