1.在y连续的情况下,当x是有两个取值的分类变量时,用t检验;当x是有多个取值的分类变量时,用方差分析;当x是连续型变量时,用方差分析;
2.当数据量低于10万时,不要用机器学习模型,否则会导致结果不准确;
3.小数据:样本量小于1万 ,来源为问卷 大数据:样本量在10万--几亿之间,来源为数据库;
4.方差分析结果显著时,才能进行多重比较;
5.当存在多个x时,用“+”来连接;
6.显著性是小数据的产物,大数据不能用,而应该用业务和效应来解释;
7.单个变量的缺失值用中位数填补,异常值用缩尾处理,特征筛选用回归分析,变换是y的变换,编码是y的编码;
8.多个变量的异常值,特征筛选用回归分析;
9.当缺失值比例小于百分之十几的时候可以用中位数填补,数据量很大时用随机森林填补缺失值;
10.特征筛选:fit.get_support(indices=True)--查看删除后的结果,哪些列被删了,哪些列保留了下来;
11.SelectPercentile(score_func=f_regression,percentile=70):percentile=70表示保留70%的变量,即删除30%的变量;
12.0.1-0.35:低度相关 0.35-0.7:中度相关 0.7-0.9:高度相关 >0.9:高危相关,可能过拟合
13.最小二乘法:数据量控制在10万行以内;
14.列数超过15列时属于高维分析;
15.梯度下降法中参数alpha(学习率)的范围在0到1之间;
16.SGDRegressor()中参数penalty=“l1”时,是lasso回归,penalty=“l2”时,是岭回归;








暂无数据