CDA117513

2022-02-21   阅读量: 418

Python python数据清洗 数据清洗案例 谷歌论文数据清洗

python数据清洗案例代码(速查 helpfull!!!)<谷歌论文数据清洗>

扫码加入数据分析学习群

读取数据

df=pd.read_cvs('.csv',index_col=0)

df.head()

df.info()

df.shape

数据清洗

删除重复数据

df.dulpicated().sum()

df['标题'].unique()

标题处理

df['标题']=df['标题'].str.strip('[PDF] ')

提取引用次数

df['引用次数']=df['引用次数'].str.findall('\d+').str.get(0).astype(int32) #regex正则表达式

提取作者信息

df['作者']=df['作者期刊'].str.split('-').str.get(0).str.strip('')

提取期刊信息

df['期刊信息']=df['作者期刊'].str.split('-').str.get(1).findall('[\u4e00-\u9fa5]+').str.get(0)

df[df['期刊信息'].isnull()]

df['期刊信息']=df['期刊信息'].fillna('知网')

df[df['期刊信息'].isnull()]

提取年份信息

df['年份']=df['作者期刊'].str.split('-').str.get(1).str.findall('\d+').str.get(0

删除作者期刊列

df.drop('作者期刊',axis=1,inplace=True)

摘要处理

df['摘要']=df['摘要'].str.strip('\xa0…')

df['摘要'].str.contains('充值记录')

df['摘要'].str.cat(sep='.')

#摘要还可以做关键词提取等

存储

df.to_csv('.csv')

·

·


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
201.2724 6 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子