期望输出与真实值的差别称之为偏差,即: bias2(x) = (fExpectedD(x) - y)2 //与真实值之间的差距 使用样本数相同的不同训练集产生的方差为: var(x) = E[(fD(x) - fExpectedD(x))2] //与预测值期望的偏离程度 评价数据拟合的状况,通常采用损失函数 J(X) 高偏差:Jtrain和Jcv都很大,并且Jtrain≈Jcv。对应欠拟合。
读童话的狼
2020-04-08
核函数不是为了把高维空间的问题在低维空间计算,为什么会增加模型复杂度? 支持向量机通过某非线性变换 φ( x) ,将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 K(x, x′) ,它恰好等于在高维空间中这个内积,即K( x, x′) =<φ( x) ⋅φ( x′) > 。那么支持向量机就不用计算复杂的非线性变换,而由这
读童话的狼
2020-04-08
升维, 意味着要加特征, 为了简单一点, 我们可以使用sklearn中的多项式特征。语法 Init signature: PolynomialFeatures( degree=2, interaction_only=False, include_bias=True, order='C', ) degree=2 自变量最高的次数, 默认为2, 值越大, 则组合出来的特
读童话的狼
2020-04-08
购物篮分析就是为了找似的物品,主要的目的在于找出什么样的东西应该放在一起,由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品,找出相关的联想规则,由这些规则的挖掘获得利益与建立竞争优势
读童话的狼
2020-04-07
卡方过滤是专门针对离散型标签(即分类问题)的相关性过滤。卡方检验类feature_selection.chi2 计算每个非负特征和标签之间的卡方统计量,并依照卡方统计量由高到低为特征排名。 F检验,又称ANOVA,方差齐性检验,是用来捕捉每个特征与标签之间的线性关系的过滤方法。它即 可以做回归也可以做分类,因此包含feature_selection.f_classif(F检验分类)和 featu
读童话的狼
2020-04-07
分类模型天生会倾向于多数的类,让多数类更容易被判断正确,少数类被牺牲掉。通过施加一 些惩罚或者改变样本本身,来让模型向着捕获少数类的方向建模。
读童话的狼
2020-04-07
集成学习(Ensemble集成算法)。首先从多数类中独立随机抽取出若干子集,将每个子集与少数类数据联合起来训练生成多个基分类器,再加权组成新的分类器,如加法模型、Adaboost、随机森林等。 此类模型对不平衡数据虽然不是特别敏感,但是对一些特别偏斜的数据仍需利用采样法等处理
读童话的狼
2020-04-07
下采样(Under-sampling) 1 原型生成(prototype generation) 给定数据集S, 原型生成算法将生成一个子集S’, 其中|S’| < |S|, 但是子集并非来自于原始数据集. 意思就是说: 原型生成方法将减少数据集的样本数量, 剩下的样本是由原始数据集生成的, 而不是直接来源于原始数据集. ClusterCentroids函数实现了上述功能: 每一个类别的样本都会用
读童话的狼
2020-04-07
精准度与召回率的调和平均数作为考量两者平衡的综合性指标,称之为F1 measure。 公式为: f1_score则是sklearn.metrics模块中的F1 measure评估指标。
读童话的狼
2020-04-07
进行独热编码之后数据就会变得得稀疏,对于这样的数据或是数值型的分类数据可以用斯皮尔曼相关 Pearson的条件比Spearman的条件更严格,两者共同条件应该都是 1、两列数据; 2、满足线性假设; 但Pearson要求两列数据均为正态分布,Spearman没有相关要求。 也即,Pearson是Spearman的充分非必要条件。 如果数据不符合Pearson要求,可以把数据降级,然后用Spearm
读童话的狼
2020-04-07
安装xgboost,命令行运行下面代码 pip install xgboost -i https://pypi.tuna.tsinghua.edu.cn/simple win32位电脑报错如下: 解决办法,可以尝试离线安装 步骤如下: 1、从这个网址下载32位的离线版xgboost, https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 2、
读童话的狼
2020-04-04
xgboost把缺失值当做稀疏矩阵来对待,本身的在节点分裂时不考虑的缺失值的数值。缺失值数据会被分到左子树和右子树分别计层损失,选择较优的那一个。如果训练中没有数据缺失,预测时出现了数据缺失,那么默认被分类到右子树。
读童话的狼
2020-04-04
这是一个bug,在最新的版本已经修复了,只需要利用下面的命令升级matplotlib就可以了 !pip install --user --upgrade matplotlib
读童话的狼
2020-04-04
在决策树学习的初始阶段,根节点各样本的初始权重都为1 若样本x在划分属性a上的取值未知,则将x划入所有子节点,同时调整该样本x的权重值为rv*wx,其中rv为无缺失值样本在属性a上取值为av的样本所占的比例,计算错误率的时候,需要考虑到样本权重 训练完成,给测试集样本分类,有缺失值怎么办? 如果有单独的缺失分支,使用此分支。 把待分类的样本的属性a值分配一个最常出现的a的属性值,然后进行分支预测。
读童话的狼
2020-04-04