M186****2299
2020-10-28 阅读量: 3641
sklearn 哑编码处理定性分类特征
原有的5个定性特征生成33个,但是没有字段名,如何正确添加?
使用sklearn中的OneHotEncoder进行编码是不会自动获取列名的,需要转换之后自定义列名,如:
也可以使用pandas中的get_dummies()方法,可以自动获取列名,更加方便快捷,如:
非常感谢!!
现在有训练集train.csv,测试集Test.csv,训练集和测试集都有一定程度的空值,并且训练集中类别型字段摊平后与测试集中类别型字段摊平后不一致,请问,填充时分别使用两个xgb模型填充,还是把两个数据集放在一起用一个xgb模型填充比较好?感谢!
TypeError Traceback (most recent call last) in ----> 1 smote=SMOTE(random_state=0,ratio={1:10000}) 2 x_smote,y_smote=smote.
def get_kind(x: pd.Series, diff_limit: int = 10): x = x.astype('str') x = x.str.extract(r'(^(\-|)(?=.*\d)\d*(?:\.\d*)?$)')[0] x.dropna(inplace=True) if x.nunique() > diff_limit: kin