
今天咱们要来唠的是机器学习中最基本也是最重要的算法之一线性回归,正当此时迪哥正在前往银行的路上,准备办理贷款(低保),到了之后银行问了我两件事,年龄和工资都多少呀?(特征)当得到了结果后告诉我我们只能贷给你100块,别问为什么!机器算的!(机器你拿毛线算的100快?)
这个图就是机器如何进行预测的(回归)它会根据一票子兄弟贷款的历史数据(年龄和工资分别对应于X1与X2)找出来最好的拟合线(面)来进行预测,这样你的数据来了之后直接带入进去就可以得出来该给你多少钱了。
我们用两个参数来分别对应于工资和年龄,控制它们对结果的影响大小,这里做了一个整合是把偏置项和权重参数项放到了一起(加了个X0让其都等于1)
要想让银行能开的下去,那就得少遇到点麻烦,迪哥这么大碗就给我100块(真实的指标应该为200块)肯定是要砸场子的,所以我们的目标是要让得到的预测值跟真实值越接近越好。
既然说到误差了,咱们就来好好唠一下,首先银行的目标得让误差越小越好,这样才能够使得我们的结果是越准确的。那么这个误差有什么规律可循吗?
咱们先来说说这个误差为啥会服从高斯分布呢,这个事就得从我们是怎么认为一个事发生的概率来说了,正常情况下你去银行贷款差不多都是一个符合你的数字吧,极小的情况下能出现类似迪哥的情况(100块都不给我),还是极小的情况下能像对待马云似的给你几个亿吧,所以银行给你贷款的误差项理论上都是在较小范围内浮动的,要么多了一点,要么少了一点。所以我们认为该误差是可以服从高斯分布的(正太分布)。
那为啥会独立呢?独立的意思就是说迪哥来贷款了,恰好马云也来了,但是我俩不认识啊(其实他认识我,我不认识他),所以我俩在贷款的时候不会因为马云而对我产生什么影响,也不会因为我对马云产生什么影响,这就是独立!
同分布又是啥呢?我和马云来的是一家银行吧,这家银行的系统只有一个,所以它在预测的时候是按照同样的方式来的,这就是我们的数据是在同一个分布下去建模的。
既然误差服从了高斯分布我们就把它进行展开,上式的意思就是我去贷款,在它这两组参数的控制下得到的贷款金额恰好是等于真实情况下就该给我这么多钱的概率。(预测值和真实值对应的可能性大小)那么我们当然希望这个概率越大越好呀,越大代表越准确呀。
(怎么又来了一堆数学。。。没人数学就不是机器学习啦)咱们继续来看,咋又突然出来了个似然函数呀,咱们先来说一说它是个什么东西。比如说你今天去赌场了,然后你不知道能不能赢钱,你就在门口蹲着,出来一个人你就问一下,哥们赢钱了吗(然后挨了一顿揍),连续出来5个人都告诉你赢钱了,那么你就会认为我去赌钱也肯定会赢钱。这个的意思就是要利用样本数据去估计你的参数应该是什么,使得估计出来的参数尽可能的满足(拟合)你的样本。
对数似然它的意思和目标很简单,就是为了简单求解,所以把比较复杂的乘法运算转换成了比较简单的加法运算。
一顿化简,其实就是把原式给展开了,然后我们的目标是要求最大值吧(什么样的参数能够使得跟我数据组合完之后是真实值的概率越大越好),对于化简后的结果左边是一个常数不用去管,右边是一个恒正的(因为有平方项)但是前面还有一个负号呀,让这样的数什么时候能取最大值呀?只有负号后面的取最小值才可以呀!
到这里我们终于推导出来了,银行只需要做一件事就可以了,那就是最小化这个函数(目标函数),其实说白了就是要让我们的预测值和真实值之间的差异越小越好,这就是最小二乘法!
接下来就是如何求解呢?通常我们去求偏导就可以了,因为极值点通常都是在偏导处取得,对我们的目标函数求偏导,并且让其等于0,这样我们就能找到最终参数的解应该是什么了!到这里小伙伴们可能感觉到竟然真能求出这个解,那这个解不就是我们想要的参数嘛,得到了它银行就有救啦!
至此我们通过了一系列的推导得出了线性回归的最终解法,但是这个解可以说是数学上的一个巧合,并不是所有问题都可以直接求解的,下回咱们再谈谈如何间接的求最优解~
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01