cda

数字化人才认证

首页 > 行业图谱 >

集成算法,随机森林回归模型

集成算法,随机森林回归模型
2021-07-20
来源:数据STUDIO 作者:云朵君 所有的参数,属性与接口,全部和随机森林分类器一致。仅有的不同就是回归树与分类树的不同,不纯度的指标, 参数Criterion不一致。 RandomForestRegressor(n_estimators='wa ...

数据挖掘中常用的基本降维思路及方法总结

数据挖掘中常用的基本降维思路及方法总结
2021-06-29
来源:数据STUDIO 作者:云朵君 01、降维的意义 降低无效、错误数据对建模的影响,提高建模的准确性。 少量切具有代表性的数据将大幅 ...

CDA LEVEL 1 考试,知识点《机器学习基本概念》

CDA LEVEL 1 考试,知识点《机器学习基本概念》
2021-03-15
一、什么是机器学习 机器学习研究如何让计算机不需要明确的程序也能具备学习能力。(—— Arthur Samuel,1959) 一个计算机程序在完成了任务T之后,获得经验E,其表现效果为P,如 果任务T的性能表现,也就是用 ...

实例 | 教你用python写一个电信客户流失预测模型

实例 | 教你用python写一个电信客户流失预测模型
2020-09-15
   CDA数据分析师 出品   作者:真达、Mika 数据:真达   【导读】 今天教大家如何用python写一个电信用户流失预测模型。之前我们用Python写了员工流失预测模型 ...

机器学习还能预测心血管疾病?没错,我用python写出来了

机器学习还能预测心血管疾病?没错,我用python写出来了
2020-09-07
CDA数据分析师 出品   作者:Mika 数据:真达   后期:Mika 【导读】手把手教你如何用python写出心血管疾病预测模型。 全球每年约有1700万人死于心血管疾病,当中主要表现 ...
如何用Python进行大数据挖掘和分析?快速入门路径图
2018-08-30
如何用Python进行大数据挖掘和分析?快速入门路径图 大数据无处不在。在时下这个年代,不管你喜欢与否,在运营一个成功的商业的过程中都有可能会遇到它。 什么是 大数据 ? 大数据就像它看起来那样——有 ...

如何让你的数据直觉更敏锐

如何让你的数据直觉更敏锐
2018-07-30
如何让你的数据直觉更敏锐 每当人工智能和机器学习取得一些进展时,这些进展一定占据着各大媒体的头版头条。 媒体对其有如此高的关注度,这意味着,现在科技界主流的兴趣领域是数据科学。 对于有大局意识 ...
R语言之决策树和随机森林
2018-06-16
R语言之决策树和随机森林 总结决策树之前先总结一下特征的生成和选择,因为决策树就是一种内嵌型的特征选择过程,它的特征选择和算法是融合在一起的,不需要额外的特征选择。 一、特征生成: 特征生成是 ...

一种面向高维数据的集成聚类算法

一种面向高维数据的集成聚类算法
2018-06-10
一种面向高维数据的集成聚类算法 聚类集成已经成为机器学习的研究热点,它对原始数据集的多个聚类结果进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分。很多学者的研究证明聚类集成能有效 ...
机器学习入门报告之 解决问题一般工作流程
2018-03-20
机器学习入门报告之 解决问题一般工作流程 对于给定的数据集和问题,用机器学习的方法解决问题的工作一般分为4个步骤: 一.     数据预处理 首先,必须确保数据的格式符合要求 ...
随机森林进行特征重要性度量的详细说明
2018-03-17
随机森林进行特征重要性度量的详细说明 特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明。 1 特征重要性度量 计算某个特征X的重 ...

深度学习防止过拟合的方法

深度学习防止过拟合的方法
2018-02-26
深度学习防止过拟合的方法 过拟合即在训练误差很小,而泛化误差很大,因为模型可能过于的复杂,使其”记住”了训练样本,然而其泛化误差却很高,在传统的机器学习方法中有很大防止过拟合的方法,同样这些方法很多也 ...
python实现随机森林random forest的原理及方法
2018-01-22
python实现随机森林random forest的原理及方法 想通过随机森林来获取数据的主要特征 1、理论 随机森林是一个高度灵活的机器学习方法,拥有广泛的应用前景,从市场营销到医疗保健保险。 既可以用来做市场营销模 ...

如何实现降维处理(R语言)

如何实现降维处理(R语言)
2017-12-07
如何实现降维处理(R语言) 现实世界中数据一般都是复杂和高维的,比如描述一个人,有姓名、年龄、性别、受教育程度、收入、地址、电话等等几十种属性,如此多的属性对于数据分析是一个严重的挑战,除了极大增加 ...
SPSS分类分析:最近邻元素分析
2017-11-15
SPSS分类分析:最近邻元素分析 一、最近邻元素分析(分析-分类-最近邻元素) 1、概念:根据个案间的相似性来对个案进行分类。类似个案相互靠近,而不同个案相互远离。因此,通过两个个案之间的距离 ...

数据挖掘案例—ReliefF和K-means算法的医学应用

数据挖掘案例—ReliefF和K-means算法的医学应用
2017-07-13
数据挖掘案例—ReliefF和K-means算法的医学应用 数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人 ...

数据挖掘过程体会

数据挖掘过程体会
2017-04-14
数据挖掘过程体会 Step1. 就是商业问题的理解了,那么如何更好的理解“老大”提出的商业问题困惑呢?我觉得思维导图倒是个不错的选择,当然自己要想更好的理解“老大”的意思还需要进一步的沟通,商业问题的 ...

机器学习:决策树(Decision Tree)

机器学习:决策树(Decision Tree)
2017-03-11
机器学习:决策树(Decision Tree) 决策树(decision tree)是一种基本的分类与回归方法。在分类问题中,它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。在学习时,利 ...

非常值得收藏的 IBM SPSS Modeler 算法简介

非常值得收藏的 IBM SPSS Modeler 算法简介
2017-03-08
非常值得收藏的 IBM SPSS Modeler 算法简介 IBM SPSS Modeler 以图形化的界面、简单的拖拽方式来快速构建数据挖掘分析模型著称,它提供了完整的统计挖掘功能,包括来自于统计学、机器学习、人工智能等方面 ...
数据挖掘七十八道选择题
2021-02-03
数据挖掘七十八道选择题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) B. 聚类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的 ...

OK