阿抽哥哥

sklearn的KNN最近邻算法中algorithm参数是啥

Nearest Neighbor Algorithms最近邻算法的选择可通过关键字‘algorithm’来控制,其参数有[‘auto’,‘brute’,‘kd_tree’,‘ball_tree’],默认使用‘auto’时算法尝试从训练数据中确定最佳方法。Brute Forcebrute forse也称暴力计算, 是最简单的近邻搜索的实现,即数据集中所有成对点之间距离的暴力计算,对于D维度中的

0.0000 0 6
  • 关注作者
  • 收藏
詹惠儿

基本概率规则和模型

概率提供有关事件发生可能性的信息。 深入研究概率的术语: 试验或实验 :导致某种可能性结果的行为。 样本空间 :实验的所有可能结果的集合。 事件 :样本空间的非空子集称为事件。 因此,在技术术语中,概率是衡量事件进行实验的可能性的指标。 基本概率计算 根据定义,如果A是实验的事件并且它包含n个结果而S是样本空间那么, 因此,概率值介于0和1之间。由于样本空间是整个可

0.0000 0 4
  • 关注作者
  • 收藏
啊啊啊啊啊吖

偏倚-方差权衡

思考过拟合问题的另一种角度是把它作为偏倚和方差之间的权衡。 偏倚和方差这两个名词是用来度量在(来自同一个大型总体的)不同的训练数据集上多次重复训练模型的情况。 这表明该模型偏倚较高。然而任何两个随机选择的训练集会给出很相似的模型(因为任何两个随机选择的训练集都应该有大致相似的平均值)。所以我们称这个模型有低方差。高偏倚和低方差典型地对应着欠拟合。另一方面,模型完美地拟合训练集,它具有

0.0000 0 4
  • 关注作者
  • 收藏
啊啊啊啊啊吖

过拟合和欠拟合

在机器学习中,一种常见的困境是过拟合(overfitting)——指一个在训练数据上表现良好,但对任何新数据的泛化能力却很差的模型。 这可能牵扯到对数据中噪声的学习,也可能涉及学习识别特别的输入,而不是对可以得到期望的输出进行准确预测的任何因素。另一种有害的情况是欠拟合(underfitting),它产生的模型甚至在训练数据上都没有好的表现,尽管通常这暗示你模型不够好而要继续寻找改进的模型

0.0000 0 2
  • 关注作者
  • 收藏
詹惠儿

深度学习与神经网络的区别

很多人不理解什么是深度学习? 它与神经网络有何不同?深度学习是多层神经网络的新名称。 可以说,深度学习是神经网络的增强和强大形式。 两者之间的区别是微妙的。不同之处在于,与神经网络(最多2层构建)相比,深度学习模型建立在几个隐藏层(例如,超过2个)上。由于数据有多种形式(表格,图像,声音,网络等),线性方法很难学习和检测数据中的非线性。 实际上,很多次甚至非线性算法(例如基于树的(GBM,决

0.0000 0 2
  • 关注作者
  • 收藏
啊啊啊啊啊吖

什么是建模

什么是模型?它实际上是针对存在于不同变量之间的数学(或概率)联系的一种规范。比如,如果你想为你的社交网站融资,可以建立一个商业模型(大多数情况下建立在一个工作表里),模型的输入是诸如“用户数”“每位用户的广告收入”“雇员数”之类的变量,输出是接下来几年的年度利润。 某本烹调指南涉及的模型是输入“吃饭的人数”和“饥饿的程度”来量化所需要的材料。 如果你在电视上看过扑克比赛,就会知道选手们通过

0.0000 0 4
  • 关注作者
  • 收藏
詹惠儿

简述逻辑回归中的混淆矩阵

混淆矩阵混淆矩阵是通常用于评估分类模型的最重要的度量。 混淆矩阵有些指标很容易弄混淆,最好结合实际例子去理解才能印象深刻。 混淆矩阵的骨架如下所示:a如您所见,混淆矩阵通过以表格格式测量实际值和预测值来避免“混淆”。 在上表中,Positive class = 1和Negative class = 0.以下是我们可以从混淆矩阵中得出的度量:准确性 - 它决定了模型的整体预测准确性。 它

0.0000 0 3
  • 关注作者
  • 收藏
詹惠儿

如何评估Logistic回归模型的拟合度和准确度?

在线性回归中,我们检查调整后的R²,F统计量,MAE和RMSE,以评估模型拟合度和准确度。 但是,Logistic回归采用了所有不同的指标集。 在这里,我们处理概率和分类值, 以下是用于Logistic回归的评估指标:1. Akaike信息标准(AIC)您可以将AIC视为多元回归中调整后的r square的对应物。 这是模型拟合的重要指标。 它遵循以下规则:越小越好。 AIC惩罚模型中越来越多

0.0000 0 4
  • 关注作者
  • 收藏
詹惠儿

Logistic回归的算法原理

众所周知,Logistic回归假设依赖(或响应)变量遵循二项分布。 现在,您可能想知道,什么是二项分布? 可以通过以下特征来认识下二项分布:必须有由n表示的固定数量的试验,即在数据集中,必须有固定数量的行。每次试验只能有两个结果; 即,响应变量只能有两个唯一的类别。每次试验的结果必须相互独立; 即,响应变量的唯一级别必须彼此独立。每次试验的成功概率(p)和失败(q)应该相同。让我们了解

0.0000 0 0
  • 关注作者
  • 收藏
詹惠儿

Logistic回归技术主要有哪些类型?

Logistic回归不仅限于解决二元分类问题。 为了解决具有多个类的问题,我们可以使用Logistic回归的扩展,其包括多项Logistic回归和Ordinal Logistic回归 。 让我们来看一下他们的基本想法:1.多项Logistic回归:假设我们的目标变量有K = 4类。 该技术通过拟合K-1独立二元逻辑分类器模型来处理多类问题。 为此,它随机选择一个目标类作为参考类,并适合K-1回归

0.0000 0 2
  • 关注作者
  • 收藏
詹惠儿

简单介绍什么是Logistic回归?

很多时候,因变量不是正态分布的情况会出现; 即,违反了正常性的假设。 例如,在因变量为二进制(男/女)时考虑问题。 你还会使用多元回归吗? 当然不是!直到1972年,人们才知道如何分析因变量中具有非正态误差分布的数据。 然后,在1972年, John Nelder和Robert Wedderburn以广义线性模型的形式取得了突破。 广义线性模型是线性模型框架的扩展,其中包括非正态的因变量。 一

0.0000 0 2
  • 关注作者
  • 收藏
詹惠儿

阐述随机森林原理

先回顾一下决策树原理:1.给定数据框(nxp),树基于规则(if-else)对数据进行分层或分区。 是的,一棵树创造了规则。 这些规则将数据集划分为不同的和不重叠的区域。 这些规则由变量对所得子节点(X2,X3)的均匀性或纯度的贡献来确定。2.变量X1导致子节点中的最高同质性,因此它成为根节点。 根节点处的变量也被视为数据集中最重要的变量。3,但这种同质性或纯度如何确定? 换句话说,树如何决

0.0000 0 2
  • 关注作者
  • 收藏
詹惠儿

阐述随机森林算法及定义

什么是随机森林算法?随机森林是一种基于树的算法,它涉及构建多个树(决策树),然后组合它们的输出以提高模型的泛化能力。 组合树的方法称为集合方法。 集合只不过是弱学习者(个体树)的组合,以产生强大的学习者。比如说,你想看电影。 但你不确定它的评论。 你问10个看过这部电影的人。 其中8人说“这部电影很精彩”。 由于大多数人都赞成,你决定观看这部电影。 这也是我们在日常生活中使用合奏技巧的方式。

0.0000 0 0
  • 关注作者
  • 收藏
詹惠儿

决策树中要解决的问题(二)

选择属性的替代措施 ID3算法使用的信息增益公式将所有变量视为相同,无论其分布及其重要性如何。 当涉及具有许多可能值的连续变量或离散变量时,这是一个问题,因为对于每个可能的值,训练示例可能很少且很远,这导致由于将数据分成小的子集而导致低熵和高信息增益但是导致决策树可能无法很好地概括。 避免这种情况的一种方法是使用其他一些措施来找到最佳属性而不是信息增益。 信息增益的另一种衡量方

0.0000 0 4
  • 关注作者
  • 收藏
詹惠儿

决策树中要解决的问题(一)

决策树虽然理解起来简单,操作也不难,但有3个一定要注意的问题。一. 避免过度拟合由于ID3算法继续拆分属性,直到它对所有数据点进行分类或者没有更多属性要进行拆分。 结果,通过以相对于整个数据分布的准确性为代价在训练数据上执行得非常好,易于创建过度拟合的决策树。通常,有两种方法可以在决策树中避免这种情况: - 允许树生长直到它过度生长然后修剪它。 - 在完全分类训练数据之前,通过停止树来防止树

0.0000 0 1
  • 关注作者
  • 收藏
詹惠儿

决策树中的学习算法

决策树中使用的基本算法称为ID3(通过Quinlan)算法。 ID3算法使用自上而下的贪婪方法构建决策树。 简而言之,该算法的步骤如下: - 选择最佳属性→A - 分配A作为NODE的决策属性(测试用例)。 - 对于A的每个值,创建NODE的新后代。 - 将训练示例排序到适当的后代节点叶。 - 如果示例完全分类,则STOP else迭代新的叶节点。决策树中一个重要问题是如何选择最佳属性。 对

0.0000 0 4
  • 关注作者
  • 收藏
詹惠儿

XGBoost是什么?

XGBoost( Ex treme G radient Boost ing)是一个优化的分布式梯度增强库。 是的,它的核心是使用梯度增强(GBM)框架。 XGBoost由华盛顿大学博士生Tianqi Chen创建,主要用于监督机器学习问题。它主要有以下特点:并行计算:通过并行处理(使用OpenMP)启用; 也就是说,当你运行xgboost时,默认情况下,它将使用你的笔记本电脑/机器的所有内核。

0.0000 0 1
  • 关注作者
  • 收藏
詹惠儿

决策树在机器学习和数据挖掘中的运用

决策树还可用于帮助构建自动预测模型,其在机器学习,数据挖掘和统计中具有应用。 这种方法称为决策树学习,它考虑了有关项目的预测,以预测该项目的价值。在这些决策树中,节点代表数据而不是决策。 这种类型的树也称为分类树。 每个分支包含一组属性或分类规则,这些属性或分类规则与特定类标签相关联,该标签位于分支的末尾。这些规则也称为决策规则,可以用if-then子句表示,每个决策或数据值构成一个子句,例如

0.0000 0 1
  • 关注作者
  • 收藏
詹惠儿

决策树的优缺点和常用符号

由于以下原因,决策树仍然很受欢迎:理解较简单无论是否有缺失数据,它们都是有用的可以将新样本添加​​到建成的树中挑选几种选择中最好的价值他们能轻松地与其他决策工具结合起来但是,决策树可能有时会变得过于复杂。 在这种情况下,更紧凑的影响图可能是一个很好的选择。 影响图将重点放在关键决策,输入和目标上。 a决策树常见符号如下:

0.0000 0 0
  • 关注作者
  • 收藏
詹惠儿

决策树分析的一个小小例子

通过计算树中每个选项的预期效用或值,您可以最大限度地降低风险并最大化达到理想结果的可能性。要计算选择的预期效用,只需从预期收益中减去该决策的成本。 预期收益等于该选择可能产生的所有结果的总值,每个值乘以它可能发生的可能性。 以下是我们如何根据上面的示例计算这些值: a在确定哪种结果最为理想时,考虑决策者的效用偏好很重要。 例如,有些人可能更喜欢低风险期权,而有些人则愿意为更大的利益承

0.0000 0 1
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据