统计学-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

啊啊啊啊啊吖

主成份分析计算第一因子解释变异数值

> PCA1 = princomp(Allct[,5:12])> as asImportance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8Standard de

0.0000

0

1

0

关注作者

收藏

啊啊啊啊啊吖

关于lavaan的问题

我在学习lavaan时用了这个例子：> library(lavaan)This is lavaan 0.5-16lavaan is BETA software! Please report any bugs.> ?HolzingerSwineford1939starting httpd help server ... done> data(HolzingerSwineford1939)

0.0000

0

2

0

关注作者

收藏

啊啊啊啊啊吖

主成份分析各指标的贡献率

在factoextra包中对贡献率有一个绘图。图中有参考线，高于此线的认为变量是显著的，随着变量的多少这个值是不同的。library(factoextra) library(FactoMineR) df

7.3728

1

1

0

关注作者

收藏

啊啊啊啊啊吖

怎么计算inverse mills ratio(基于R)

R语言做probit回归之后，如何计算出inverse mills ratio？在经历多方帮助（此处真的心累）算是找到了一个解决的办法：library("sampleSelection")data(Mroz87)myProbit

99.9904

1

1

0

关注作者

收藏

啊啊啊啊啊吖

几行代码教你怎么用R实现幂律分布

自然界与社会生活中存在各种各样性质迥异的幂律分布现象，因而对它们的研究具有广泛而深远的意义。借助于有效的物理和数学工具以及强大的计算机运算能力，科学家们对幂律分布的本质有了进一步深层次的理解。实际上,幂律分布广泛存在生物、地球与行星科学、计算机科学、生物学、生态学、人口统计学与社会科学、经济与金融学等众多领域中,且表现形式多种多样. 在自然界与日常生活中,包括地震规模大小的分布 (古登堡2里希特

99.9904

1

2

0

关注作者

收藏

啊啊啊啊啊吖

时间序列里的那些图，你会吗

0.0000

0

2

0

关注作者

收藏

啊啊啊啊啊吖

R里关于时间序列函数整理

R与金融时间序列分析常见问题集library(zoo) #时间格式预处理library(xts) #同上library(timeSeires) #同上library(urca) #进行单位根检验library(tseries) #arma模型library(fUnitRoots) #进行单

0.0000

0

4

0

关注作者

收藏

啊啊啊啊啊吖

用数据来恋爱！妹子被追后的选择分析

假设：1. 妹子们一生中可以遇到100个追求者，追求者的优秀程度符合正态分布；2. 每个妹子都具备判断并比较追求者优秀程度的能力；3. 接受或拒绝一个追求者后永远无法后悔。问题：当遇到追求者时，如何选择才能获得最优结果？下面介绍选择方法：首先，为了不错过在未来可以接受更优秀的追求者，理性的妹子会拒绝最早的一批追求者，并且采用第一批追求者做样本量k，理性地判断出追求者中最

6.0835

1

2

0

关注作者

收藏

啊啊啊啊啊吖

一起学习！R实现逻辑回归的学习整理

SAS中Proc logisitc过程提供了很完善的logistic回归的分析功能，学习R中完成此过程只是想比较一下两个软件在完成此过程的差别。虽然有很多帖子介绍如何采用R完成logistic回归过程，但是都相对过于简单，对于以下常用细节很少涉及。1、模型筛选方法2、如何简单设定哑变量3、针对分类变量，如何选取特定水平作为参考水平4、如何简单输出OR值及置信区间5、如何构建条件logis

72.8088

1

2

0

关注作者

收藏

291294878

二项分布和多项分布区别

二项分布和多项分布在生活中，许多行为（试验）的结果只有两个“Ａ”和“非Ａ”。例如：检查产品的质量，其结果只有两个：合格与不合格；如果试验的结果多于两个，但只关心其中一个结果，也可以视为只有两个结果。例如，调查教育程度时，结果有文盲、小学、初中、高中、大学以上，如果自关心大学以上，那么所有结果可以分成两类：大学以上和非大学以上。如果两个结果的发生概率已知，那么从总体中抽取Ｎ个个体，这Ｎ

0.0000

0

1

0

关注作者

收藏

291294878

古典概率分布的连续形式有哪些?

均匀分布均匀概率分布是古典概率分布的连续形式，是指随机事件的可能结果是连续型数据变量，所有的连续型数据结果所对应的概率相等。回顾古典概率分布，如图所示，掷骰子点数结果的概率分布就是一个典型的古典概率分布，投掷的点数结果是六个离散型数值(1,2,3,4,5,6)，它们的发生概率相等，都是1/6。如果将离散型数据结果(1,2,3,4,5,6)换成连续型数据结果的取值区域(1

0.0000

0

2

0

关注作者

收藏

291294878

概率问题？

生活案例英国超级联赛已经成为世界上最高水平的足球联赛之一，吸引了世界球迷的目光，曼彻斯特联队与曼彻斯特城队的同城德比更是令世界瞩目。截止到2015-2016赛季，曼彻斯特联队在历史上和曼彻斯特城队交手171次，打进250球丢234球，拿到了71胜51平49负的战绩。如果在2016-2017赛季，曼彻斯特联队与曼彻斯特城队将进行6场比赛，求曼联2胜1平3负的概率是多少？分析思路足球比赛的结果有

0.0000

0

1

0

关注作者

收藏

zxq997

构成时间数列的因素有哪些？

1、长期趋势（Secular Trends）由于某种根本原因的影响，客观现象在一个相当长的时间内所呈现出来的持续增加或持续减少的一种趋势和状态。例如：随着经济条件、医疗条件的发展，人口出生率有高于死亡率的趋势；随着劳动条件和手段的改善，劳动生产率有上升趋势等。2、季节趋势（Seasonal fluctuation）由于季节的转变而使时间数列发生周期性变化。这种周期性变化是以年为周期的可以预见

128.5712

1

4

0

关注作者

收藏

zxq997

什么是卡方分布？

定义：卡方统计量的抽样分布称为卡方分布，如果大小为n的所有可能的样本取自方差为σ2的正态分布总体，且对每一样本计算卡方统计量的特定值，则这些特定值将有一个称作卡方分布的连续概率分布（抽样分布）。卡方分布由一个特定的唯一的概率密度函数所定义，函数为：概率密度函数曲线如下，随着自由度的增加，曲线变成单峰的，且越来越对称。

0.0000

0

1

0

关注作者

收藏

291294878

过拟合问题

为什么会产生过拟合，有哪些方法可以预防或克服过拟合？一般在机器学习中，将学习器在训练集上的误差称为训练误差或者经验误差，在新样本上的误差称为泛化误差。显然我们希望得到泛化误差小的学习器，但是我们事先并不知道新样本，因此实际上往往努力使经验误差最小化。然而，当学习器将训练样本学的太好的时候，往往可能把训练样本自身的特点当做了潜在样本具有的一般性质。这样就会导致泛化性能下降，称之为过拟合，相反

0.0000

0

5

0

关注作者

收藏

291294878

GBDT 和随机森林的区别？

随机森林采用的是bagging的思想，bagging又称为bootstrap aggreagation，通过在训练样本集中进行有放回的采样得到多个采样集，基于每个采样集训练出一个基学习器，再将基学习器结合。随机森林在对决策树进行bagging的基础上，在决策树的训练过程中引入了随机属性选择。传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性，而随机森林则是对结点先随机选择包含k个

0.1902

1

5

0

关注作者

收藏

291294878

如何解决类别不平衡问题？

有些情况下训练集中的样本分布很不平衡，例如在肿瘤检测等问题中，正样本的个数往往非常的少。从线性分类器的角度，在用 y = wx b 对新样本进行分类的时候，事实上在用预测出的y值和一个y值进行比较，例如常常在y>0.5的时候判为正例，否则判为反例。几率y/1-y反映了正例可能性和反例可能性的比值，阈值0.5恰好表明分类器认为正反的可能性相同。在样本不均衡的情况下，应该是分类器的预测几率高

0.0000

0

1

0

关注作者

收藏

291294878

SVM、LR、决策树的对比？

SVM既可以用于分类问题，也可以用于回归问题，并且可以通过核函数快速的计算，LR实现简单，训练速度非常快，但是模型较为简单，决策树容易过拟合，需要进行剪枝等。从优化函数上看，soft margin的SVM用的是hinge loss,而带L2正则化的LR对应的是cross entropy loss，另外adaboost对应的是exponential loss。所以LR对远点敏感，但是SVM对

0.0000

0

2

0

关注作者

收藏

291294878

决策树的特性？

决策树基于树结构进行决策，与人类在面临问题的时候处理机制十分类似。其特点在于需要选择一个属性进行分支，在分支的过程中选择信息增益最大的属性。在划分中我们希望决策树的分支节点所包含的样本属于同一类别，即节点的纯度越来越高。决策树计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征，但是容易过拟合，需要使用剪枝或者随机森林。信息增益是熵减去条件熵，代表信息不确定性较少的程度

0.0000

0

3

0

关注作者

收藏

291294878

SVM 的推导，特性？多分类怎么处理？

SVM是最大间隔分类器从线性可分情况下，原问题，特征转换后的dual问题，引入kernel(线性kernel,多项式，高斯),最后是soft margin。线性：简单，速度快，但是需要线性可分多项式：比线性核拟合程度更强，知道具体的维度，但是高次容易出现数值不稳定，参数选择比较多。高斯：拟合能力最强，但是要注意过拟合问题。不过只有一个参数需要调整。多分类问题，一般将二分类推广到多分类

0.0000

0

3

0

关注作者

收藏

<1…515253…55>

CDA考试动态

CDA报考指南