问、最大似然估计的特点是什么? 答: 1.比其他估计方法更加简单; 2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好; 3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。
dreamhappy2012
2019-03-05
问、极大似然估计的思想是什么? 答: 极大似然估计可以拆成三个词,分别是“极大”、“似然”、“估计”,分别的意思如下: 极大:最大的概率 似然:看起来是这个样子的 估计:就是这个样子的 连起来就是,最大的概率看起来是这个样子的那就是这个样子的。 总结:极大似然估计就是在只有概率的情况下,忽略低概率事件直接将高概率事件认为是真实事件的思想。
dreamhappy2012
2019-03-05
问:最大似然函数估计值的一般步骤是什么? 答: (1) 写出似然函数 (2) 对似然函数取对数,并整理 (3) 求导数 (4) 解似然方程 对于最大似然估计方法的应用,需要结合特定的环境,因为它需要你提供样本的已知模型进而来估算参数,例如在模式识别中,我们可以规定目标符合高斯模型。而且对于该算法,我理解为,“知道”和“能用”就行,没必要在程序设计时将该部分实现,因为在大多数程序中只会用到我最后推导
dreamhappy2012
2019-03-05
问、最大似然估计的作用是什么? 答: 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数θ作为真实θ的参数估计。
dreamhappy2012
2019-03-05
问、最大似然估计和最大后验概率估计的区别是什么? 答: MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)。 或者,也可以反过来,认为MLE是把先验概率P(θ)认为等于1,即认为θ是均匀分布。
dreamhappy2012
2019-03-05
问、贝叶斯公式主要讲什么? 答: 学习机器学习和模式识别的人一定都听过贝叶斯公式(Bayes’ Theorem): 贝叶斯公式看起来很简单,无非是倒了倒条件概率和联合概率的公式。 把B展开,可以写成: 这个式子就很有意思了。 想想这个情况。一辆汽车(或者电瓶车)的警报响了,你通常是什么反应?有小偷?撞车了? 不。。 你通常什么反应都没有。因为汽车警报响一响实在是太正常了!每天都要发生
dreamhappy2012
2019-03-05
问、概率和统计是一样吗? 答: 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。
dreamhappy2012
2019-03-05
问、似然函数的本质意义是什么? 答: 在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。 似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。 概率 用于在已知一些参数的情况下,预测接下来的观测所得到的结果,
dreamhappy2012
2019-03-05
问、极大似然估计怎么计算? 1、写出似然函数 其中 x1,x2,⋯,xn 为样本,θ 为要估计的参数 2、一般对似然函数取对数 因为 f(xi|θ) 一般比较小,n 比较大,连乘容易造成浮点运算下溢。 3、求出使得对数似然函数取最大值的参数的值 对对数似然函数求导,令导数为0,得出似然方程, 求解似然方程,得到的参数就是对概率模型中参数值的极大似然估计。
dreamhappy2012
2019-03-05
问、为什么要有参数估计? 答: 当模型已定,但是参数未知时。 例如我们知道全国人民的身高服从正态分布,这样就可以通过采样,观察其结果,然后再用样本数据的结果推出正态分布的均值与方差的大概率值,就可以得到全国人民的身高分布的函数。
dreamhappy2012
2019-03-04
问、极大似然估计是什么? 答: 极大似然估计是一种参数估计的方法。 先验概率是 知因求果,后验概率是 知果求因,极大似然是 知果求最可能的原因。 即它的核心思想是:找到参数 θ 的一个估计值,使得当前样本出现的可能性最大。 例如,当其他条件一样时,抽烟者患肺癌的概率是不抽烟者的 5 倍,那么当我们已知现在有个人是肺癌患者,问这个人是抽烟还是不抽烟?大多数人都会选择抽烟,因为这个答案是“最有可
dreamhappy2012
2019-03-04
问、算法的性能评估的过程是什么? 答: a. 评估假设函数是否过按拟合? b. 模型选择和交叉验证集 c. 诊断偏差和方差 d. 归一化和偏差/方差 e. 学习曲线
dreamhappy2012
2019-03-04
问、用训练好的模型来预测未知数据的时候发现有较大的误差怎么办? 答: 1.获得更多的训练实例——通常是有效的,但代价较大,下面的方法也可能有效,可考虑先采用下面的几种方法。 2.尝试减少特征的数量 3.尝试获得更多的特征 4.尝试增加多项式特征 5.尝试减少归一化程度λ 6.尝试增加归一化程度λ
dreamhappy2012
2019-03-04
问、关于过拟合的介绍? 答: 过拟合:当学习器把训练样本学得“太好了”的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会有的一般性质,这样就会导致泛化性能下降。相反则称为欠拟合。 注意:我们必须认识到过拟合是无法避免的,我们所能做的只是“缓解”,或者说减小其风险。关于这一点,可大致这样理解:机器学习面临的问题是NP难甚至更难,而有效的学习算法必然在多项式时间内运行完成,若可避免过拟合
dreamhappy2012
2019-03-04
问、关于误差的几个概念? 答: 通常我们把分类错误的样本总数的比例称为错误率(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m;相应的,1-a/m称为” 精度”(accuracy),更一般的,我们把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”, 学习器在训练集上的误差称为“训练误差”或“经验误差”, 在新样本上的误差称为“泛化误差”。
dreamhappy2012
2019-03-04
问、ROC曲线与代价曲线的对应关系是什么? 答: ROC曲线的点对应了一对(TPR,FPR),即一对(FNR,FPR),由此可得一条代价线段(0,FPR)–(1,FNR),由所有代价线段构成簇,围取期望总体代价和它的边界–代价曲线。所以说,ROC对应了一条代价曲线,反之亦然。
dreamhappy2012
2019-03-04
问、错误率与ROC曲线有什么关系? 答: ROC曲线每个点对应了一个TPR与FPR,此时对应了一个错误率。 学习器会选择错误率最小的位置作为截断点。
dreamhappy2012
2019-03-04
问、TPR、FPR、P、R之间有什么关联? 答: P,查准率(准确率),(预测正例)中(真实正例)的比例. R,查全率(召回率),(真实正例)中(预测正例)的比例. TPR,真正例率,(真实正例)中(预测正例)的比例,TPR = R. FPR,假正例率,(真实反例)中(预测正例)的比例.
dreamhappy2012
2019-03-04
问、最小二乘法和梯度下降法有什么区别? 答: 这两种方法的目的相同,并且对于损失函数的定义都是相同的--求得损失函数的最小值,使得假设函数能够更好的拟合训练集数据。 区别是: 计算上,最小二乘法直接计算损失函数的极值,而梯度下降却是给定初始值,按照梯度一步步下降的方式取得局部最小值,之后再选定其他初始值,计算-比较。 数学上,最小二乘法直接使用极值,将极值作为最小值。其假定有二:1,损失函数中极值
dreamhappy2012
2019-03-04
问、批量梯度下降算法(BGD)的优缺点? 答: 批量梯度下降算法:每一次迭代使用全部的样本 优点:能达到全局最优解(凸函数情况下),易于并行实现 缺点:当样本数目很多时,训练过程缓慢
dreamhappy2012
2019-03-01