数据科学专业问答社区，好文章，一字千金--CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

点赞能量: %
点赞价值:

https://www.nltk.org/data.html

0 0 0

fs陈晓亮

2021-03-22

词根还原WordNetLemmatizer报错

0 0 0

fs陈晓亮

2021-03-22

词根还原WordNetLemmatizer报错

你的dataframe是几个字段？可以截图下吗，你那个匿名函数里面的x是一个数据框

0 0 1

LYY202012

2021-03-21

dataframe.groupby('Sex').apply(lambda x: x.count())

问题已解决，谢谢！

0 0 0

fs陈晓亮

2021-03-21

过抽样1的比例

从你的混淆矩阵来看，可以看到过抽样后的数据建立的模型对测试数据的预测效果明显提升

1 0 0

fs陈晓亮

2021-03-19

过抽样1的比例

过抽样前混淆矩阵

train
confusion_matrix
 [[18875   131]
 [    1   193]]
classification report
               precision    recall  f1-score   support

           0       1.00      0.99      1.00     19006
           1       0.60      0.99      0.75       194

    accuracy                           0.99     19200
   macro avg       0.80      0.99      0.87     19200
weighted avg       1.00      0.99      0.99     19200

test
confusion_matrix
 [[4722   30]
 [  41    7]]
classification report
               precision    recall  f1-score   support

           0       0.99      0.99      0.99      4752
           1       0.19      0.15      0.16        48

    accuracy                           0.99      4800
   macro avg       0.59      0.57      0.58      4800
weighted avg       0.98      0.99      0.98      4800

过抽样后混淆矩阵

train
confusion_matrix
 [[18674   332]
 [   29 18977]]
classification report
               precision    recall  f1-score   support

           0       1.00      0.98      0.99     19006
           1       0.98      1.00      0.99     19006

    accuracy                           0.99     38012
   macro avg       0.99      0.99      0.99     38012
weighted avg       0.99      0.99      0.99     38012

test
confusion_matrix
 [[4644  108]
 [  40 4712]]
classification report
               precision    recall  f1-score   support

           0       0.99      0.98      0.98      4752
           1       0.98      0.99      0.98      4752

    accuracy                           0.98      9504
   macro avg       0.98      0.98      0.98      9504
weighted avg       0.98      0.98      0.98      9504

1 0 0

fs陈晓亮

2021-03-19

过抽样1的比例

从混淆矩阵看，你的模型对数据的拟和程度是比较高的。然后你把这个估计好的模型用于你测试集数据，然后把混淆矩阵给我贴一下，不用贴其他的，只需要贴混淆矩阵，我看下测试集预测效果

0 0 1

fs陈晓亮

2021-03-19

过抽样1的比例

2.png
3.png
1.png
4.png

0 0 0

fs陈晓亮

2021-03-19

过抽样1的比例

图一为过抽样前的f1值和auc，图二为过抽样，0和1的比例为1:1，图三为过抽样后的f1值和auc，图四为用新数据预测的1的数量。模型为随机森林，RandomForestClassifier(random_state=0,class_weight='balanced')，其余参数未调整。

0 0 0

fs陈晓亮

2021-03-19

过抽样1的比例

你首先要过抽样将0 1 比例调整成1:1，然后将过采样后得到的新数据分成训练集和测试集，训练集数据用来对模型进行训练，测试集才进行测试。你的训练集数据训练的模型用于训练数据的预测，预测的准确率是多少？你可以截一下混淆矩阵的图

0 0 0

fs陈晓亮

2021-03-18

过抽样1的比例

用了随机森林和xgboost

0 0 0

fs陈晓亮

2021-03-18

过抽样1的比例

f1值和auc都是测试集数据，然后我用新数据跑，结果跑出来1的比例只有1%，和原数据1的比例有较大差距。

1 0 0

fs陈晓亮

2021-03-18

过抽样1的比例

你用的哪个机器学习算法进行建模？

0 0 1

fs陈晓亮

2021-03-18

过抽样1的比例

f1和auc都是测试集数据，但我用新数据跑，跑出1的比例约为1%，和测试数据差距很大。

0 0 0

fs陈晓亮

2021-03-18

过抽样1的比例

我就是用默认值，0和1提升到1:1，结果用模型一跑不用调参数f1值就去到0.99，auc约为1，是不是有点不正常啊？

0 0 1

fs陈晓亮

2021-03-18

过抽样1的比例

这个没有一个固定的标准，你可以通过过抽样使得0和1的比例变为1:1即可。

0 0 1

fs陈晓亮

2021-03-18

过抽样1的比例

问题已解决，谢谢！

0 0 0

fs陈晓亮

2021-03-18

AttributeError:'feature_select' object has no attribute 'select_list' 代码不明白为什么报错

偷笑

0 0 0

ermutuxia

2021-03-17

如果想将一个数据框列表通过循环导出为若干个excel文件应该怎么做？

2021年3月17日，越来越好！！！

1 0 0

ermutuxia

2021-03-17

pgc官宣官宣！！！！消息功能开通了，大家可以看到自己的或奖励消息还有互动消息了

NICE~~~

1 0 0

ermutuxia

2021-03-17

pgc官宣官宣！！！！消息功能开通了，大家可以看到自己的或奖励消息还有互动消息了

<1…596061…155>