7月28日_CDA答疑社区

#特征值筛选(Filter过滤法) --业务上不重要的
从已有的指标,再去选一些指标
fit.get_support(indices=True)找到留下变量的位置
用回归评价分数,percentile保留多少百分比,建议保留70%,f_regression建议留下50%
创新变量留下1-2个就不错了
第一次删除30%,第二次删除50%

表格太大画图sns.heatmap(data53.corr())
共线性需要处理,不能太高,对模型有破坏作用.x与x之间相关性大于0.9则有影响.
对角线的上三角与下三角一样,看一半
去除共线性方法:删除或合并(整合)
在工业中缺x是常态
删除异常值不要超过1%
相关度研究范围在(0.1-0.9)之间
看散点图:1:胖瘦,2:趋势,3:异常(不能太多)
大部分是S形状,小部分是线性,小部分是U型
模型R平方大于0.35以上,才使用模型.
常用标准 0.35(1/e),0.5,0.7
截距还是重要的,增加精确度
OLS适合数据符合正态分布
ML适合不是正态分布
SGD适合大数据
数据较多的适合考虑综合误差
小数据不能正则化