建立评分卡模型时需要跨数据集检验WOE分箱的单调性。如果在训练集上保持单调,但在验证集和测试集上发生翻转而不单调,那么说明分箱并不合理,需要再次调整。如果自变量x与因变量y之间存在非线性关系,也就是说x越大,不能保证预测为好人/坏人的概率也越大。比如:随着x增大,P(Y=1|X)先增大,后变小。此时可通过WOE变换,同时保持WOE曲线具备单调性,那么带来的好处在于:1. 若WOE中Odds定义为好
读童话的狼
2021-02-18
不是一样的,SSA是组间平方和,主要指系统误差,反应自变量对因变量的影响,SSE则是组内平方和,指其他的误差(抽样误差,测量误差等)对因变量的影响SSE例如,每个样本内部的数据平方和加在一起就是组内平方和, 它反映了每个样本内各观测值的离散状况。反映组间误差大小的平方和称为组间平方和,也称为因素平方和,记为SSA。例如,四个行业被投诉次数之间的误差平方和就是组间平方和,它反映了样本均值之间的差异程
读童话的狼
2021-02-18
Xgboost(极端梯度提升)也是属于梯度提升树算法,利用损失函数的负梯度作为提升树算法中残差的近似值。后续树的生成就是在当前的基础上,对残差进行构建新的树。XGBoost 在进行完一次迭代后,会将叶子节点的权重乘上Shrinkage,这是为了削弱每棵树的影响,让后面有更大的学习空间
读童话的狼
2021-02-18
n是频率,bins 是区间范围,patches是每个区间的值
读童话的狼
2021-02-09
python支持多变量同时赋值的,比如:a, b = 1, 2,同时把1赋值给a,把2赋值给b
读童话的狼
2021-02-09
这个是因为包的版本更新,移除了normed方法,可以用下面的代码import matplotlib.pyplot as pltimport matplotlib.mlab as mlabfrom scipy.stats import normmu = 100 # 均值sigma = 15 # 标准差x = mu + sigma * np.random.randn(1000)n, bins
读童话的狼
2021-02-09
可以从这个图来看,并非所有的样本点都有一个松弛变量与其对应。实际上只有“离群点”才有,或者也可以说,所有没离群的点松弛变量都等于0,对于ζ>1的点就是位于决策超平面上方的红色点(错误点)
读童话的狼
2021-02-08
松弛变量的值实际上标示出了对应的点到底离群有多远,值越大,点就越远。惩罚因子C决定了对离群点的重视程度,当所有离群点的松弛变量的和一定时,C越大,对目标函数的损失也越大,此时就暗示着非常不愿意放弃这些离群点,最极端的情况是把C定为无限大,这样只要稍有一个点离群,目标函数的值马上变成无限大,马上让问题变成无解,这就退化成了硬间隔问题。
读童话的狼
2021-02-08
先看下自己的谷歌版本,从这个网址http://chromedriver.storage.googleapis.com/index.html 下载对应的插件解压之后将chomedriver.exe放到anaconda3文件夹下就可以了
读童话的狼
2021-02-07
这个是正负号显示的问题,执行plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号然后再画图就可以了
读童话的狼
2021-01-30
先设置对应的字体再画图对于windows电脑执行这个语句plt.rcParams['font.sans-serif'] = ['SimHei'] mac电脑执行这个语句plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
读童话的狼
2021-01-30
iloc得到的是DataFram或者是series不是数组iloc[:,:-1]获得的是除最后一列的所有列iloc[:,-1]获取的是最后一列
读童话的狼
2021-01-28