2020-08-29
阅读量:
865
8月29日
拉格朗日插值法
隐式知识点:描述两个变量的相关性,使用条形堆栈条形图 卡方检验
两个连续变量:散点图 + 趋势线 相关系数
一分类一连续:分组箱线图 t检验(二分类)方差分析(多分类 )
无监督分箱
有明确业务逻辑,只能用自定义分箱
1,2,3,4,5,6,7,100
等宽,等深分箱:
等宽:3个箱子,分割点[1,34,67,100](距离相等,保存了分布信息)
等深:3个箱子,分割点[1,3,6,100](个数)
有监督
聚类:依信息分
线性关系(回归)不用分箱
非线性关系考虑分箱,可能效果R²效果会好
预测时只能用y之前的来预测y
卡方分箱
cart树分箱(就是新建一个决策树,可以调优,min_impurity_decrease(每个节点不纯度下降最小值))






评论(0)


暂无数据