关于R语言字符型数据清洗问题-CDA数据分析师官网

热线电话：13121318867

登录

首页精彩阅读关于R语言字符型数据清洗问题

关于R语言字符型数据清洗问题

2018-06-21

收藏

关于R语言字符型数据清洗问题

最近做一个预测关于投资者是否再次投资的项目，需要针对客户导出的数据进行清洗后建模分析，我目前选择的模型是xgboost，貌似数据必须全是numeric。

数据结构如下：

在这个里面，我们需要做的是将第一列里面的‘是’替换为1，第四列、第七列、第八列的字符也替换为数字。

具体需求如下：

平台标签替换：0、NA；1、PC；2、WAP；3、IOS；4、andriod；
产品标签替换：0、NA；1、新手专享；2、直投散标；3、定期宝；4、双手计划；5、新手标。

首先我们读取数据，代码如下：

hnjb<-read.csv('F:/Rdata/hnjb/投资用户基础信息表3.csv',na.string='NA',header=T)

然后我们将数据转为字符型，方便替换

hnjb[] <- lapply(hnjb, as.character)

准备完毕，开始替换

hnjb[is.na(hnjb)]<-0
hnjb[hnjb=='是']<-1
hnjb[hnjb=='pc']<-1
hnjb[hnjb=="wap"]<-2
hnjb[hnjb=='ios']<- 3
hnjb[hnjb=='android']<- 4
hnjb[hnjb=='新手专享']<-1
hnjb[hnjb=='直投散标']<-2
hnjb[hnjb=='定期宝']<-3
hnjb[hnjb=='双收计划']<-4
hnjb[hnjb=='新手标']<-5

结果如下：

好了，字符替换大功告成！

后续我们将这些字符转码为numeric就可以导入xgboost进行建模分析了，不过时间变量转为字符串之后，再转为numeric就变成NA了

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据结构 R语言数据清洗

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

更多

Copyright © 2015-2021, www.cda.cn All Rights Reserved. CDA数据分析师(北京国富如荷网络科技有限公司) 版权所有京ICP备11001960号-9

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

OK

客服在线

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册