问:模型权重不是模型会更容易识别出来那些数据类型,跟测试集的权重没关系吗,就像我们之前学习的不平衡数据集的处理方法? 答:数据不平衡是从Y值标签来的,这里和我们的adaboost里讲的比较相似。在adaboost里面,我们是更改错误样本的权重,使得模型更加小心的对待错误的样本,尝试将他们预测正确。对数据不平衡来说,也可以用相同的思想。将少数类的样本权重增大,使得模型会自己更改,从而尽量的将少数类给
田齐齐
2020-03-31
MySQL:1055错误 (Error Code: 1055. Expression #2 of SELECT list is not in GROUP BY clause and contains nonaggregated column 'school.b.s_name' which is not functionally dependent on columns in GROUP BY cl
田齐齐
2020-03-31
问:随机森林算法中,每个弱分类器采样集都不同,树肯定都不一样,那与random_state控制树的形状不同还有什么用吗? 答:树的形状不同其实就够了,形状的不同就是某种意义上模型的复杂度不一样,会使得最后的结果不一样,但有的时候,数据不一样,树也可能是差不多的,random_state就是在这个不同的程度上又加上了一些不同。达到一种防止过拟合的作用。
田齐齐
2020-03-30
决策树根节点以及每个节点的选取,是根据信息增益来选取最优的特征进行分裂 随机森林每一次选择分叉的特征时,限定为在随机选择的特征的子集中寻找特征 优点:消除了决策树过拟合的缺点,减小了预测的变化幅度,预测值不会因为训练数据的小变化而剧烈变化
田齐齐
2020-03-30
问:boosting提升算法中最开始各个样本的权重都是相等的吗? 答:是的,比如有n个样本,在经过第一个基分类器时,每个样本的权重都是1/n
田齐齐
2020-03-30
问:为什么预测错的部分下一次反而增大他的权重呢?这样不是对结果的准确性影响更大吗? 答:集成算法boosting法中的权重,会自动使得每次预测错误的那些样本权重之和为1/2,剩下正确的之和也为1/2;模型每次会把预测错的样本的权重增加,突出这个样本,已达到对模型进行预警,模型就会自动进行调整,重点将预测错误的那部分样本进行关注,再次预测时达到尽量让其预测正确的目的,就这样逐步调整和优化直到最优。
田齐齐
2020-03-30
逻辑回归可用于多分类问题,二分类时的函数为sigmod函数,多分类问题应使用softmax函数,其实sigmod是softmax函数的一种情况。并且多分类问题时并不是类别y的值设置的越大概率会越大,因为,最终用于类别判断的函数是一个0,1向量,例如五分类问题的实际向量可以为(0,0,0,1,0),预测向量可以为(0.1,0.2,0.3,0.4,0),然后进行交叉熵计算最优化解。 代码参考:htt
田齐齐
2020-03-29
正态分布的峰度K=3,均匀分布的峰度K=1.8。 除了左偏右偏之外我们还需要从峰度上看峰度是否偏离了正态分布。 kurtosis=K-3 称为超值峰度 kurtosis>0,尖峰态(leptokurtic),数据集比较分散,极端数值较多 kurtosis<0,低峰态(platykurtic),数据集比较集中,两侧的数据比较少
田齐齐
2020-03-29
对称分布:平均数=中位数=众数 非对称分布时即存在偏态,分为右向偏态和左向偏态 右向偏态:平均数>众数,极端值在右侧,曲线向右延伸 左向偏态:平均数<众数,极端值在左侧,曲线向左延伸 偏态的描述方法:偏态系数SK(=0对称分布,>0正偏态,<0负偏态)
田齐齐
2020-03-29
Excel函数: NORM.S.DIST:返回标准正态分布概率值 NORM.S.INV:返回标准正态分布临界值 NORM.DIST:返回正态分布概率值 NORM.INV:返回具有给定概率正态分布临界值 T.DIST:返回左尾t分布概率值 T.DIST.2T:返回双尾t分布概率值 T.DIST.RT:返回右尾t分布概率值 T.INV:返回t分布左尾临界值 T.INV.2T:返回t分布双尾临界值
田齐齐
2020-03-29
1.首先样本方差要除的那个东西n-1,不是代表样本个数,本质上,是自由度。 2.除以(n-1)的定义式可以使得样本方差S²作为对总体方差的估计量,是无偏的。 具体推导可参考:https://www.zhihu.com/question/28964121/answer/289441350
田齐齐
2020-03-29
四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。 1)第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字; 2)第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字; 3)第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大
田齐齐
2020-03-29
Apriori算法有支持度和置信度两个概念,都是在执行算法之前自己设定的,在每一次迭代过程后,大于支持度的项集被保留为频繁项集,最后生成的规则由最终的频繁项集组成。 一、支持度 支持度就是所有我们分析的交易中,某两种(若干种)商品同时(这里的同时,一般意味着同单或者一次独立的交易)被购买的概率(比率)。我们选择支持度的最终目的就是找出同时被购买的两个商品,可以提高我们的推荐转换率,从而增加收入。
田齐齐
2020-03-27
俗话说“物以类聚、人以群分”,拿看电影这个例子来说,如果你喜欢《蝙蝠侠》、《碟中谍》、《星际穿越》、《源代码》等电影,另外有个人也都喜欢这些电影,而且他还喜欢《钢铁侠》,则很有可能你也喜欢《钢铁侠》这部电影。 所以说,当一个用户 A 需要个性化推荐时,可以先找到和他兴趣相似的用户群体 G,然后把 G 喜欢的、并且 A 没有听说过的物品推荐给 A,这就是基于用户的系统过滤算法。 我们可以将基于用
田齐齐
2020-03-27
MinMax归一化,区间缩放发利用了边界值信息,将属性缩放到[0,1],减去最小值除以最大值与最小值的插值,实现代码如下: From sklearn.preprocessing import MinMaxScaler #区间缩放,返回值为缩放到[0,1]区间的数据 minMaxScaler=MinMaxScaler().fit(X_train) minMaxScaler.transform(X_
田齐齐
2020-03-25