数据挖掘-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

809669515

监督学习和无监督学习的区别

机器学习的常用方法，主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。无监督与监督学习的区别在于一个无教学值，一个有教学值。但是，个人认为他们的区别在于无监督学习一般是采用聚簇等算法来分类不同样本。而监督学习一般是利用教学值与实际输出值产生的误差，进行误差反向传播修改权值来完成网络修正的。但是无监督学习没有反向传播修改权值

0.0000

0

6

0

关注作者

收藏

809669515

Kmeans算法的优点和缺点

K-MEANS算法是输入聚类个数k，以及包含 n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法。k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。K-means算法的优点是：计算时间段，速度快能根据较少的已知聚类样本的类别对树进行剪枝确定部分样本的分类算法本身具有优化迭代

0.0000

0

6

0

关注作者

收藏

809669515

多元线性回归的优点和缺点

在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。多元线性回归的优点：可直观、快速分析出三者之间的线性关系。可以准确的剂量各个因素之间的相关程度与拟合程度的高低，提高预测方程式的效果多元线性回归的缺点：可能忽略了交互效应和非线性的因果关

0.0000

0

1

0

关注作者

收藏

809669515

多元线性回归的优点和缺点

在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。多元线性回归的优点：可直观、快速分析出三者之间的线性关系。可以准确的剂量各个因素之间的相关程度与拟合程度的高低，提高预测方程式的效果多元线性回归的缺点：可能忽略了交互效应和非线性的因果关

0.0000

0

2

0

关注作者

收藏

809669515

逻辑回归的优点和缺点

逻辑回归（Logistic Regression）是用于处理因变量为分类变量的回归问题，常见的是二分类或二项分布问题，也可以处理多分类问题，它实际上是属于一种分类方法。优点：非常容易实现，且训练起来很高效预测结果是界于0和1之间的概率；可以适用于连续性和类别性自变量；容易使用和解释；Logistic 回归也是一个很好的基准，可以用它来衡量其他更复杂的算法的性能。缺点：容易欠拟

0.0000

0

1

0

关注作者

收藏

809669515

决策树算法的优点和缺点

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树算法的优点如下：生成的模式简单对噪声数据有很好的健壮性速度快: 计算量相对较小, 且容易转化成分类规则. 只要沿着树根向下一直走到叶, 沿途的分裂条件就能够唯一确定一条分类的谓词准确

0.0000

0

1

0

关注作者

收藏

809669515

BP神经网络的优缺点

BP神经网络是一种按误差反向传播(简称误差反传)训练的多层前馈网络，其算法称为BP算法，它的基本思想是梯度下降法，利用梯度搜索技术，以期使网络的实际输出值和期望输出值的误差均方差为最小。BP神经网络的优点：具有较强的非线性映射能力具有高度自学习和自适应的能力具有将学习成果应用于新知识的能具有一定的容错能力BP神经网络的缺点：BP神经网络结构的选择至今尚无一种统一而完整的理论指导，

7.3728

1

1

0

关注作者

收藏

809669515

SVM的优缺点

SVM的主要思想可以概括为两点：它是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。它基于结构风险最小化理论之上在特征空间中构建最优超平面，使得学习器得到全局最优化，并且在整个样本空间的期望以某个概率满足一定上界。SVM的主要优点：

9.7428

1

2

0

关注作者

收藏

809669515

随机森林的优点和缺点

随机森林（Random Forest）是属于集成学习的一种组合分类算法（确切说是属于bagging），集成学习的核心思想就是将若干个弱（基）分类器组合起来，得到一个分类性能显著优越的强分类器。如果各弱分类器之前没有强依赖关系、可并行生成，就可以使用随机森林算法。随机森林利用自主抽样法（bootstrap）从原数据集中有放回地抽取多个样本，对抽取的样本先用弱分类器—决策树进行训练，然后把这些

0.0000

0

0

0

关注作者

收藏

kejiayuan0806

数据挖掘模型中的IV

1、IV的用途IV的全称是Information Value，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这200个自变量中挑选一些出来，放进模型，形成入模变量列表。那么我们怎么去挑选入模变量呢？挑选入模变量过程是个

0.0000

0

2

0

关注作者

收藏

kejiayuan0806

WOE的全称是“Weight of Evidence”，即证据权重。WOE是对原始自变量的一种编码形式。要对一个变量进行WOE编码，需要首先把这个变量进行分组处理（也叫离散化、分箱等等，说的都是一个意思）。分组后，对于第i组，WOE的计算公式如下：其中，pyi是这个组中响应客户（风险模型中，对应的是违约客户，总之，指的是模型中预测变量取值为“是”或者说1的个体）占所有样本中所有响应客户

35.8908

1

3

0

关注作者

收藏

啊啊啊啊啊吖

SAS字符串连接符和字符连接函数学习分享

1、字符串连接符包括|| ¦¦ !!等例1：data _null_; a=

0.0000

0

2

0

关注作者

收藏

809669515

过拟合的常用处理方式

1.增加训练数据数过拟合是由于模型学习到了数据的一些噪声特征导致，增加训练数据的量能够减少噪声的影响，让模型更多地学习数据的一般特征。利用现有数据进行扩充或许也是一个好办法。例如在图像识别中，如果没有足够的图片训练，可以把已有的图片进行旋转，拉伸，镜像，对称等，这样就可以把数据量扩大好几倍而不需要额外补充数据。一般有以下方法：从数据源头采集更多数据复制原有数据并加上随机噪声重采样根据当

0.0000

0

1

0

关注作者

收藏

809669515

过拟合和欠拟合的区别

无论在机器学习还是深度学习建模当中都可能会遇到两种最常见结果，一种叫过拟合（over-fitting ）另外一种叫欠拟合（under-fitting）。首先谈谈什么是过拟合呢？什么又是欠拟合呢？网上很直接的图片理解如下：过拟合（over-fitting）所谓过拟合其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。打

0.0000

0

2

0

关注作者

收藏

PGC123

数据分析的基本流程是什么？

数据分析主要有那几步呢？数据分析应用的行业场景非常多，因此没有非常标准的流程，具体场景具体职位可能都有所不同。总的来说数据分析大致分6个流程：1、需求分析分析整理需求这部很重要，只有理解了需求才能在对的方向做对的事。2、数据获取根据需求搜集各个渠道数据3、数据清理将各个渠道数据清理、合并4、特征提取结合业务在数据中提取变量、特征5、训练建模将提取特征的

72.8088

1

2

0

关注作者

收藏

PGC123

标准方程法与梯度下降法的区别

这两个方法都是旨在获取使代价函数值最小的参数θ，两个方法各有优缺点：1、梯度下降算法优点：当训练集很大的时候（百万级），速度很快。缺点：需要调试出合适的学习速率α、需要多次迭代、特征值数量级不一致时需要特征缩放。2、标准方程法优点：不需要α、不需要迭代、不需要特征缩放，直接解出结果。缺点：运算量大，当训练集很大时速度非常慢。因此，当训练集很大

17.3451

1

3

0

关注作者

收藏

809669515

使用python创建RFM模型

RFM是客户分析及衡量客户价值的重要模型之一，其中的R表示最近一次消费(Recency)，F表示消费频率(Frequency)，M表示消费金额(Monetary)。依据这三个指标RFM可以将客户动态分组，并进一步指导客户运营的下一步工作。本篇文章使用python的聚类算法创建一个粗糙的RFM模型。 1. 开始前的准备工作首先是开始前的准备工作，这里除了常用的numpy和pandas以外，

96.2725

3

1

0

关注作者

收藏

809669515

RFM模型分析

会员的价值体现在持续不断的为企业带来稳定的销售和利润，同时也为企业策略的制定提供数据支持。所以零售企业总是想尽一切办法去吸引更多的人成为会员，并且尽可能提高他们的忠诚度。忠诚度高的顾客表现为经常光顾购买，有较高的价格忍耐度，愿意支付更高的价格，也愿意向其他人推荐，对品牌满意度较高等。会员忠诚度高不一定会员价值就高，还得看他的实际消费金额，也就是消费力。忠诚度高、消费力强的顾客才是企业最优质的会员顾

0.0000

0

2

0

关注作者

收藏

809669515

监督学习和无监督学习（通俗理解）

机器学习分为：监督学习，无监督学习，半监督学习（也可以用hinton所说的强化学习）等。在这里，主要理解一下监督学习和无监督学习。监督学习（supervised learning）从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类（注意和

0.0000

0

3

0

关注作者

收藏

809669515

划分训练集、测试集的三种方法

一、为什么要分开训练集与测试集在机器学习中，我们是依靠对学习器的泛化误差进行评估的方法来选择学习器。具体方法如下：我们需要从训练集数据中产出学习器，再用测试集来测试所得学习器对新样本的判别能力，以测试集上的测试误差作为泛化误差的近似，来选取学习器。通常我们假设训练集、测试集都是从样本集中独立同分布采样得到，且测试集、训练集中的样本应该尽可能互斥（测试集中的样本尽量不在训练集中有出现、尽量不

0.0000

0

1

0

关注作者

收藏

<1…151617>

CDA考试动态

CDA报考指南