确定性模型包括:平滑法、趋势分析法、季节分解法。 ⚫ 非季节性 简单:适用于无趋势,且无季节性; Holt(霍特)线性趋势:适用于有趋势,且无季节性; Brown(布朗)线性趋势:适用于有趋势,且无季节性; 阻尼趋势:适用于逐渐消失的趋势,且无季节性; ⚫ 季节性 简单季节性:适用于无趋势,且季节性变化为常数; Winters(温特)可加性:适用于有趋势,且季节性变化为常数; W
田齐齐
2020-02-28
这是重复值的多少决定的,就像排名为1的值有三个,下一个排名就为第4,距离就远。而具体要分几组,是业务环境和需求决定的,比如客户划分,客户流失越严重应该分的更细。
田齐齐
2020-02-28
为了控制离群 值对估计结果的影响,本文对除企业规模(SIZE)和资产负债率(LEV)以外的所有变量进行 了“缩尾处理”(Winsorization),即,将所有小于 1%分位数或大于 99%分位数的观察值, 分别替换为1%分位数或99%分位数。 缩尾的值可以结合实际业务需求和数据进行调整。
田齐齐
2020-02-28
可以先对此列进行升序或降序排序 选出要进行替换的值,进行替换 设置重命名为一个新变量,设置新值和旧值 把大于41.71的值替换成41.71 把其他所有值复制旧值 这样我们就手动构建出一列进行了缩尾处理的数据啦。
田齐齐
2020-02-28
方差分析又被称作“F检验”或者“变异数分析”,主要是用于两个及两个以上样本均值差异的显著性检验。方差分析和回归分析一样,也有很多个分支。对于方差分析,一般我们是用来研究不同来源的变异对总变异的贡献大小,从而确定可控因素对因变量的影响大小。
田齐齐
2020-02-27
如图 5-4 显示,一个简单感知器模型,感知器模型左侧是自变量及其对应的输入节点、 𝑤𝑖表示通过训练数据集估计的权重值、𝑓(𝑾 ∙ 𝑿 𝛿)由两部分组成,即加法器(combination function)和激活函数(transfer function)。 加法器是感知器对输入权值加权求和(一般情况如此,其他情况如径向基函数与此不同), 另外还有偏移项(bias),可以理解为回归中
田齐齐
2020-02-27
老师,logistics中的正确率能判断什么呢,您当时说不能只看那个正确率,是这样吗,还要与不进行回归的正确率相比,关于正确率这里 还是不太理解 决定系数R方是来衡量回归的好坏,是看整体情况,准确率表示所有的预测样本中,预测正确的比例,根据图1-1可得其计算公式为:A = (TP TN) / (TP FN FP TN) 准确率可以看局部预测准确率,比如为正的预测对了多少,为负
田齐齐
2020-02-27
我们首先知道信息熵是考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。公式如下: a 我们的条件熵的定义是:定义为X给定条件下,Y的条件概率分布的熵对X的数学期望 这个还是比较抽象,下面我们解释一下: 设有随机变量(X,Y),其联合概率分布为 a 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X)
田齐齐
2020-02-27
logistic回归是看R方和正确率要结合在一起看。 决定系数R方是来衡量回归的好坏,换句话说就是回归拟合的曲线它的拟合优度!也就是得分啦~~ 决定系数它是表征回归方程在多大程度上解释了因变量的变化,或者说方程对观测值的拟合程度如何。 准确率表示所有的预测样本中,预测正确的比例,根据图1-1可得其计算公式为:A = (TP TN) / (TP FN FP TN)
田齐齐
2020-02-27
问题:logistic回归后估计出预测值概率和预测值,预测值是根据概率50%为界,大于则1,小于则0,那有的问题要>80%的概率才输出1,其余为0,这个logistic能做吗? 可以的,如图 在这里,将分类分界值改为0.8就可以了。
田齐齐
2020-02-27
问题:看缺失值模式目的是确定填补方法吗? 答:我们在处理缺失值时,要看缺失值比例,缺失值模式能够给我们提供非常丰富比例,不但是一个变量的比例 ,而且是各种缺失值组合的比例,可以帮我们去更好的判定结果。
田齐齐
2020-02-27
问题:对于y为分类时,y取0,1和y取1,2,都不影响分析吗? 答:是的,y取0,1和y取1,2,只是对y的一个标记,代表两种情况,和取值没影响。
田齐齐
2020-02-27
样本数据足够多时为了剔除一些极端值对研究的影响,一般会对连续变量进行缩尾处理(Winsorize)。 通常在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。
田齐齐
2020-02-27
ROC曲线的定义 ROC的全称是Receiver Operating Characteristic Curve,中文名字叫“受试者工作特征曲线”,顾名思义,其主要的分析方法就是画这条特征曲线。 a 该曲线的横坐标为假阳性率(False Positive Rate, FPR),N是真实负样本的个数,FP是N个负样本中被分类器预测为正样本的个数。纵坐标为真阳性率(True Positive
田齐齐
2020-02-26