读取数据
![]()
df=pd.read_cvs('.csv',index_col=0)
![]()
df.head()
df.info()
df.shape
数据清洗
删除重复数据
![]()
df.dulpicated().sum()
df['标题'].unique()
标题处理
![]()
df['标题']=df['标题'].str.strip('[PDF] ')
提取引用次数
![]()
df['引用次数']=df['引用次数'].str.findall('\d+').str.get(0).astype(int32) #regex正则表达式
提取作者信息
![]()
df['作者']=df['作者期刊'].str.split('-').str.get(0).str.strip('')
提取期刊信息
![]()
df['期刊信息']=df['作者期刊'].str.split('-').str.get(1).findall('[\u4e00-\u9fa5]+').str.get(0)
![]()
df[df['期刊信息'].isnull()]
![]()
df['期刊信息']=df['期刊信息'].fillna('知网')
![]()
df[df['期刊信息'].isnull()]
提取年份信息
![]()
df['年份']=df['作者期刊'].str.split('-').str.get(1).str.findall('\d+').str.get(0
删除作者期刊列
![]()
df.drop('作者期刊',axis=1,inplace=True)
摘要处理
![]()
df['摘要']=df['摘要'].str.strip('\xa0…')
![]()
df['摘要'].str.contains('充值记录')
![]()
df['摘要'].str.cat(sep='.')
#摘要还可以做关键词提取等
存储
![]()
df.to_csv('.csv')
·
·
201.2724
6
0
关注作者
收藏
发表评论
暂无数据

