田齐齐

机器学习:数据不平衡的权重问题

问:模型权重不是模型会更容易识别出来那些数据类型,跟测试集的权重没关系吗,就像我们之前学习的不平衡数据集的处理方法? 答:数据不平衡是从Y值标签来的,这里和我们的adaboost里讲的比较相似。在adaboost里面,我们是更改错误样本的权重,使得模型更加小心的对待错误的样本,尝试将他们预测正确。对数据不平衡来说,也可以用相同的思想。将少数类的样本权重增大,使得模型会自己更改,从而尽量的将少数类给

田齐齐

2020-03-31

36.8426 6 3
  • 关注作者
  • 收藏

机器学习:为什么做特征选取

有的数据集里面,有的特征信息量不大,和Y值的相关性不强,从而模型学习的过程,将这个特征里的噪音学习进去了,从而导致过拟合。所以我们做特征选取

田齐齐

2020-03-31

34.8090 5 3
  • 关注作者
  • 收藏

MySQL:1055错误

MySQL:1055错误 (Error Code: 1055. Expression #2 of SELECT list is not in GROUP BY clause and contains nonaggregated column 'school.b.s_name' which is not functionally dependent on columns in GROUP BY cl

田齐齐

2020-03-31

27.2997 5 1
  • 关注作者
  • 收藏

机器学习:随机森林random_state参数作用

问:随机森林算法中,每个弱分类器采样集都不同,树肯定都不一样,那与random_state控制树的形状不同还有什么用吗? 答:树的形状不同其实就够了,形状的不同就是某种意义上模型的复杂度不一样,会使得最后的结果不一样,但有的时候,数据不一样,树也可能是差不多的,random_state就是在这个不同的程度上又加上了一些不同。达到一种防止过拟合的作用。

田齐齐

2020-03-30

10.2041 6 3
  • 关注作者
  • 收藏

线性回归可以做缺失值填充吗

可以的。线性回归用于做缺失值填充。

田齐齐

2020-03-30

16.1498 6 1
  • 关注作者
  • 收藏

决策树和随机森林节点选取的区别

决策树根节点以及每个节点的选取,是根据信息增益来选取最优的特征进行分裂 随机森林每一次选择分叉的特征时,限定为在随机选择的特征的子集中寻找特征 优点:消除了决策树过拟合的缺点,减小了预测的变化幅度,预测值不会因为训练数据的小变化而剧烈变化

田齐齐

2020-03-30

16.1498 6 3
  • 关注作者
  • 收藏

boosting提升算法中最开始各个样本的权重都是相等的吗

问:boosting提升算法中最开始各个样本的权重都是相等的吗? 答:是的,比如有n个样本,在经过第一个基分类器时,每个样本的权重都是1/n

田齐齐

2020-03-30

2.6552 4 2
  • 关注作者
  • 收藏

机器学习:boosting提升方法关于样本权重更新问题

问:为什么预测错的部分下一次反而增大他的权重呢?这样不是对结果的准确性影响更大吗? 答:集成算法boosting法中的权重,会自动使得每次预测错误的那些样本权重之和为1/2,剩下正确的之和也为1/2;模型每次会把预测错的样本的权重增加,突出这个样本,已达到对模型进行预警,模型就会自动进行调整,重点将预测错误的那部分样本进行关注,再次预测时达到尽量让其预测正确的目的,就这样逐步调整和优化直到最优。

田齐齐

2020-03-30

9.7892 6 1
  • 关注作者
  • 收藏

逻辑回归如何解决多分类问题?

逻辑回归可用于多分类问题,二分类时的函数为sigmod函数,多分类问题应使用softmax函数,其实sigmod是softmax函数的一种情况。并且多分类问题时并不是类别y的值设置的越大概率会越大,因为,最终用于类别判断的函数是一个0,1向量,例如五分类问题的实际向量可以为(0,0,0,1,0),预测向量可以为(0.1,0.2,0.3,0.4,0),然后进行交叉熵计算最优化解。 代码参考:htt

田齐齐

2020-03-29

3.9004 5 2
  • 关注作者
  • 收藏

怎样理解分布峰度

正态分布的峰度K=3,均匀分布的峰度K=1.8。 除了左偏右偏之外我们还需要从峰度上看峰度是否偏离了正态分布。 kurtosis=K-3 称为超值峰度 kurtosis>0,尖峰态(leptokurtic),数据集比较分散,极端数值较多 kurtosis<0,低峰态(platykurtic),数据集比较集中,两侧的数据比较少

田齐齐

2020-03-29

56.7686 6 3
  • 关注作者
  • 收藏

数据偏态

对称分布:平均数=中位数=众数 非对称分布时即存在偏态,分为右向偏态和左向偏态 右向偏态:平均数>众数,极端值在右侧,曲线向右延伸 左向偏态:平均数<众数,极端值在左侧,曲线向左延伸 偏态的描述方法:偏态系数SK(=0对称分布,>0正偏态,<0负偏态)

田齐齐

2020-03-29

3.9004 5 4
  • 关注作者
  • 收藏

如何用Excel查询抽样分布临界值表 ?

Excel函数: NORM.S.DIST:返回标准正态分布概率值 NORM.S.INV:返回标准正态分布临界值 NORM.DIST:返回正态分布概率值 NORM.INV:返回具有给定概率正态分布临界值 T.DIST:返回左尾t分布概率值 T.DIST.2T:返回双尾t分布概率值 T.DIST.RT:返回右尾t分布概率值 T.INV:返回t分布左尾临界值 T.INV.2T:返回t分布双尾临界值

田齐齐

2020-03-29

12.9400 6 4
  • 关注作者
  • 收藏

怎么用Excel生成20个1-100之间的随机数

选中一个单元格,输入公式:=RANDBETWEEN(1,100),然后向下填充即可。

田齐齐

2020-03-29

22.4552 6 3
  • 关注作者
  • 收藏

统计学:样本方差为什么除以n-1

1.首先样本方差要除的那个东西n-1,不是代表样本个数,本质上,是自由度。 2.除以(n-1)的定义式可以使得样本方差S²作为对总体方差的估计量,是无偏的。 具体推导可参考:https://www.zhihu.com/question/28964121/answer/289441350

田齐齐

2020-03-29

6.3232 6 2
  • 关注作者
  • 收藏

统计:四分位数

四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。 1)第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字; 2)第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字; 3)第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大

田齐齐

2020-03-29

16.6076 7 4
  • 关注作者
  • 收藏

怎么理解关联规则中最小支持度和最小置信度?

Apriori算法有支持度和置信度两个概念,都是在执行算法之前自己设定的,在每一次迭代过程后,大于支持度的项集被保留为频繁项集,最后生成的规则由最终的频繁项集组成。 一、支持度 支持度就是所有我们分析的交易中,某两种(若干种)商品同时(这里的同时,一般意味着同单或者一次独立的交易)被购买的概率(比率)。我们选择支持度的最终目的就是找出同时被购买的两个商品,可以提高我们的推荐转换率,从而增加收入。

田齐齐

2020-03-27

6.3232 6 1
  • 关注作者
  • 收藏

jupyter notebook怎样建立一个py文件

jupyter notebook怎样建立一个py文件 1.先新建一个文本文件 2.写好代码之后重命名为py文件即可

田齐齐

2020-03-27

37.5964 6 5
  • 关注作者
  • 收藏

机器学习:什么是基于用户的协同过滤推荐算法

俗话说“物以类聚、人以群分”,拿看电影这个例子来说,如果你喜欢《蝙蝠侠》、《碟中谍》、《星际穿越》、《源代码》等电影,另外有个人也都喜欢这些电影,而且他还喜欢《钢铁侠》,则很有可能你也喜欢《钢铁侠》这部电影。 所以说,当一个用户 A 需要个性化推荐时,可以先找到和他兴趣相似的用户群体 G,然后把 G 喜欢的、并且 A 没有听说过的物品推荐给 A,这就是基于用户的系统过滤算法。 我们可以将基于用

田齐齐

2020-03-27

1.2472 4 3
  • 关注作者
  • 收藏

朴素贝叶斯需要划分训练集和测试集吗?

问题:朴素贝叶斯需要划分训练集和测试集吗? 答:朴素贝叶斯和其他有监督算法一样,是需要划分训练集和测试集的,划分方法一样。

田齐齐

2020-03-27

36.3524 5 2
  • 关注作者
  • 收藏

机器学习:MinMax归一化

MinMax归一化,区间缩放发利用了边界值信息,将属性缩放到[0,1],减去最小值除以最大值与最小值的插值,实现代码如下: From sklearn.preprocessing import MinMaxScaler #区间缩放,返回值为缩放到[0,1]区间的数据 minMaxScaler=MinMaxScaler().fit(X_train) minMaxScaler.transform(X_

田齐齐

2020-03-25

22.1471 5 0
  • 关注作者
  • 收藏
<123420>