统计学-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

291294878

如何建立规则的分类器？

建立规则的分类器：（1）顺序覆盖。直接从数据中提取规则，规则基于某种评估度量以贪心的方式增长，该算法从包含多个类的数据集中一次提取一个类的规则。在提取规则时，类y的所有训练记录被看作是正例，而其他类的训练记录则被看作反例。如果一个规则覆盖大多数正例，没有或仅覆盖极少数反例，那么该规则是可取的。一旦找到这样的规则，就删掉它所覆盖的训练记录，并把新规则追加到决策表R的尾部（规则增长策略：从一般到特

2.4134

1

2

0

关注作者

收藏

291294878

怎么处理决策树中的过拟合问题？

处理决策树中的过分拟合：A)：先剪枝（提前终止规则）：当观察到的不纯性度量的增益（或估计的泛化误差的改进）低于某个确定的阈值时就停止扩展叶节点。B)：初始决策树按照最大规模生长，然后进行剪枝的步骤，按照自底向上的方式修剪完全增长的决策树。修剪有两种方法：（1）用新的叶节点替换子树，该叶节点的类标号由子树下记录中的多数类确定；（2）用子树中常见的分支替代子树。当模型不能再改进时终止剪枝步骤。

2.4134

1

4

0

关注作者

收藏

291294878

泛化误差估计分类有哪些？

泛化误差的估计：（1）乐观估计（决策树归纳算法简单的选择产生最低训练误差的模型作为最终的模型）（2）悲观误差估计（使用训练误差与模型复杂度罚项的和计算泛化误差）（3）最小描述长度原则（模型编码的开销加上误分类记录编码的开销）（4）估计统计上界（泛化误差可以用训练误差的统计修正来估计，因为泛化误差倾向于比训练误差大，所以统计修正通常是计算训练误差的上界）（5）使用确认集（如2/3的训练集

0.0000

0

1

0

关注作者

收藏

291294878

过拟合问题原因有哪些？

过分拟合问题：造成原因有：（1）噪声造成的过分拟合（因为它拟合了误标记的训练记录，导致了对检验集中记录的误分类）；（2）根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。（由于训练数据缺乏具有代表性的样本，在没有多少训练记录的情况下，学习算法仍然继续细化模型就会产生这样的模型，当决策树的叶节点没有足够的代表性样本时，很可能做出错误的预测）（3）多重比较也可能会导致过分拟合（大量的候

0.0000

0

1

0

关注作者

收藏

291294878

简单理解时间序列

时间序列：同一现象在不同时间的相继观察值排列而成的序列。（1）、分为平稳序列和非平稳序列两大类。平稳序列：基本上不存在趋势的序列，各观察值在某个固定水平上随机波动，没有规律。非平稳序列：包含趋势、季节性和周期性的序列，可能包含一种也可包含多种。（2）、平滑预测法：对于不含趋势和不含季节成分的时间序列，即平稳时间序列只含随机成分，只要通过平滑就可以消除波动；趋势预测法：对于只含有

0.0000

0

2

0

关注作者

收藏

291294878

点估计、区间估计、假设检验的区别于联系？

点估计：基于某一准则构造N个随机样本（简称样本）的估计统计量（简称估计量）来估计某一总体未知参数。将样本值代入估计量可计算得到未知参数的估计值。点估计虽然直接给出未知参数的估计值，但是未给出估计值的可靠程度，即未知参数的真实值可能偏离估计值的程度。区间估计：给定置信水平，根据估计值(点估计的值)确定真实值可能出现的区间范围，该区间通常以估计值为中心。是点估计的拓展，为了说明点估计结果的可靠程度

0.0000

0

3

0

关注作者

收藏

291294878

参数估计问题

参数估计：1）、参数估计问题：总体的分布函数形式已知，但它的一个或多个参数未知，借助总体的样本来估计总体的参数问题。2）、估计量：一个样本参数n个向量X为总体参数的估计量，估计值：每一行记录为总体参数估计值3）、点估计：是利用样本数据对未知参数进行估计得到的是一个具体的数据；常用的点估计的方法有：矩估计法与极大似然估计法。4）、估计量的评选标准：无偏性：估计量的参数数学期望E

0.0000

0

3

0

关注作者

收藏

291294878

怎么解释随机事件与概率？

1）、随机试验：进行一次实验之前不能确定哪一个结果会出现（不确定性），需要注意的是试验要求在相同条件下可以重复。基本事件：由一个样本点组成的单点集。独立事件：P(AB)=P(A)P(B) 必然事件、不可能事件、积事件(交集)、差事件、对立事件2）、古典概型：试验的样本空间包含有限个元素；每个基本事件发生的可能性相等。P(a)=k/n 几何概率：试验的样本点有无限多个

0.0000

0

4

0

关注作者

收藏

kejiayuan0806

模型评价指标有哪些

分类模型评价指标：精确率、正确率、召回率、F值、ROC、AUC等指标。精确率(precision)是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本，也就是precision=TP/(TP FP)。而召回率(recall)是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了，也就是recall=TP/(TP FN)。一个分母是预测为正的样本数，另一个是原

0.0000

0

4

0

关注作者

收藏

kejiayuan0806

精确率、准确率、召回率、F值有什么区别

精确率(precision)是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本，也就是precision=TP/(TP FP)。而召回率(recall)是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了，也就是recall=TP/(TP FN)。一个分母是预测为正的样本数，另一个是原来样本中所有的正样本数。准确率(accuracy)是预测对的数量占所有

0.0000

0

2

0

关注作者

收藏

wangjuju123

聚类最优K值怎么选？

一、问题描述在做项目是需要用到K-means聚类时，有一个选取最优K值的步骤需要我们去做，有两个方法时我们经常会用到的：手肘法和轮廓系数法。1、手肘法描述及应用1.1 理论手肘法的核心指标是SSE(sum of the squared errors，误差平方和)，其中，Ci是第i个簇，p是Ci中的样本点，mi是Ci的质心（Ci中所有样本的均值），SSE是所有样本的聚类误差，代表了

7.0693

2

2

0

关注作者

收藏

啊啊啊啊啊吖

分位数回归R代码分享，具体到让你尖叫

###分位数回归####library(quantreg) # 载入quantreg包data(engel) # 加载quantreg包自带的数据集##单变量回归#分位数回归(tau = 0.5)fit1 = rq(foodexp ~ income, tau = 0.5, data = engel) r1 = resid(fit1)

0.0000

0

1

0

关注作者

收藏

啊啊啊啊啊吖

用R进行二因素随机区组方差分析及其多重比较的实现

例子：玉米品种A有4个水平，分别是A1-A4，施肥B有两个水平，分别是B1-B2，重复三次，采用随机区组，数据如下：数据录入：> library(reshape);library(agricolae)>df df.2 colnames(d

0.0000

0

1

0

关注作者

收藏

阿抽哥哥

如何理解抽样估计中的无偏性、有效性和一致性？

点估计是参数估计的重要组成部分，点估计的常见方法有矩估计和极大似然估计，衡量一个点估计量的好坏的标准有很多，比较常见的有：无偏性（Unbiasedness）、有效性（Efficiency）和一致性（Consistency）。由于抽样具有随机性。每次抽出的样本一般都不会相同，根据样本值得到的点估计的值也不尽相同。那么，如何来确定一个点估计的好坏呢？单凭某一次抽样的样本是不具有说服力的，必须要通过

0.0000

0

1

0

关注作者

收藏

啊啊啊啊啊吖

怎么对时间序列进行转化？一个函数来解决

时间序列对象是一种专为时间序列分析而设计的对象类型，其中包括两个维度，一个是描述指标的数值，还有一维是时间。时间序列对象和一般数值型向量类似，只不过是加了一个时间的描述。在R语言中可以使用ts(数据向量，frequency=表示将时间分开的时间间隔，start=c(第一个数据所表示的年，月))。详见下面的的例子。> sales.data

75.3065

1

0

0

关注作者

收藏

wangjuju123

方差和期望的关系？

方差是衡量源数据和期望值相差的度量值。统计描述中，方差用来计算每一个变量（观察值）与总体均数之间的差异。为避免出现离均差总和为零，离均差平方和受样本含量的影响，统计学采用平均离均差平方和来描述变量的变异程度。在概率论和统计学中，数学期望(mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。是最基本的数学特征之一。它反映随机变量平均取值的大小。

83.1427

3

2

0

关注作者

收藏

291294878

如何理解第一范式、第二范式、第三范式？

第一范式在任何一个关系数据库中，第一范式（1NF）是对关系模式的基本要求，不满足第一范式（1NF）的数据库就不是关系数据库。所谓第一范式（1NF）是指数据库表的每一列都是不可分割的基本数据项，同一列中不能有多个值，即实体中的某个属性不能有多个值或者不能有重复的属性。第二范式第二范式（2NF）是在第一范式（1NF）的基础上建立起来的，即满足第二范式（2NF）必须先满足第一范式（1NF）。第

75.1118

3

1

0

关注作者

收藏

291294878

R方的理解与调整R方

从应用上来讲，R²可以理解成为解释度，也就是因变量y的变化有多少百分比是可以由自变量的变化来解释的。但是R²有一个非常不好的特征，就是只要加多自变量，自变量对因变量变化的解释程度一定是随之增加的，所以会造成一种越多自变量越好的错觉。因此引入了调整R²的概念。主要是在R²的基础上，加上对变量数量的调整，这样就避免了只要自变量数量增加，自变量对因变量的解释程度就增加的这种不合理的现象。所以一

74.5416

1

2

0

关注作者

收藏

291294878

先验概率和后验概率的区别？

先验概率（prior probability）是指根据以往经验和分析得到的概率，如全概率公式，它往往作为"由因求果"问题中的"因"出现的概率。后验概率( posterior probability)是指通过调查或其它方式获取新的附加信息，利用贝叶斯公式对先验概率进行修正，而后得到的概率，而且在利用样本资料计算逻辑概率时，还要使用理论概率分布，需要更多的数理统计知识。举一个简单的例子：一口袋

121.8400

6

1

0

关注作者

收藏

291294878

怎样实现数据的归一化和标准化？

严谨来说，归一化只是标准化的一种方式，最常见的是以下两种：1、min-max标准化（Min-max normalization）x*=(x-min)/(max-min)可映射到[0,1]，若为了映射到[-1,1],则在此基础上2x*-1注：这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。2、z-score标准化(zero-mean normali

230.1389

9

1

0

关注作者

收藏

<1…535455>

CDA考试动态

CDA报考指南