guuggu

利用df.mode()计算众数进行缺失值填充

翻译一下官方文档,强化下自己的理解DataFrame.mode(axis=0, numeric_only=False)[source]沿着某个选择的轴返回(一组)众数。每个众数都会增加一行和一个label,对缺失行用nan填充。注意轴上可能存在多个众数,这也是为何此函数会返回一个 dataframe。如果你想对名为 df 的 dataframe,用众数来填充缺失项,可以这么做:df.fillna(

guuggu

2020-06-20

27.3096 3 4
  • 关注作者
  • 收藏

关于决策树生成的结果会不一样的原因(笔记)

关于决策树生成的结果会不一样是因为,sklearn决策树中,在splitter='best'的过程中,在特征选择的过程中,也是会有一点随机性,并且数据量越大特征越多的情况下越明显。转载PythonBigDataFrank老师群里讲的~~

guuggu

2020-06-19

22.7476 3 3
  • 关注作者
  • 收藏

决策树之信息增益理解

最开始,我认为信息增益指的是误差大小,学习过后才知道信息增益指的是同一类别里,决策树上下节点间同一特征下的期望误差,该误差值越大,则代表这条信息流里需要解释的信息量越多我知道这很绕,之所以我会纠结这个点,是因为gda的公式里,是上个节点的h值减去下节点的h值取最大,而通常对于h值的理解是越大越好,而gda反而要求下节点的h值越小越好,这里就很奇怪,后来问了同学,被他的一句话提醒了----'我们希望

guuggu

2020-06-18

23.0062 5 4
  • 关注作者
  • 收藏

用plt画图小知识

plt里的参数必须是元组,不能是字符串,列表,字典,dataframe等等

guuggu

2020-06-18

14.3060 3 5
  • 关注作者
  • 收藏

鸢尾花的质心

第二天作业.png鸢尾花的质心好奇怪,是不是因为维度的关系?质心不在数据集里

guuggu

2020-06-18

14.4121 2 4
  • 关注作者
  • 收藏