python数据清洗案例代码（速查 helpfull!!!）<淘宝电商案例>

CDA117513

2022-02-20 阅读量: 1000

读取并探索数据

df=pd.read_csv('.csv')

df.shape

df.info()

查看数值型字段的描述性统计信息

df.describe(include='all')

#If include='all' is provided as an option, the result will include a union of attributes of each type. The include and exclude parameters can be used to limit which columns in a DataFrame are analyzed for the output.

数据去重

df.duplicated().sum()

df.duplicate()

查看卖家种类信息

df['卖家'].unique()

df['卖家'].nunique()

查看位置种类信息

df['位置'].unique()

df['位置'].nunique()

选出价格最贵的十个宝贝的信息

pd.nlargest(10,df['价格'])

df.nlargest(10,columns='价格')

添加一列成交额=价格x成交量

位置放在成交量之后

pd.insert(3,['成交额'])=df['价格']*df['成交量'] #原地修改

挑选出成交额最多的十个宝贝的信息

df[['宝贝','成交额']].nlargest(10,'成交额')

[['宝贝','成交额']].pivot(index='宝贝',aggfunc='sum').nlargest(10,columns='成交额')

df1=df.nlargest(10,'成交额')

df1[['成交额','宝贝']]

查看位置是江苏，成交额是前5名的宝贝

df1=df[df['位置']=='江苏']

df1['宝贝','成交额'].pivot(index='位置',aggfunc='sum').nlargest(10,columns='成交额')

挑选出卖家含有 ‘旗舰店’的行

df[df['卖家'].str.contains('旗舰店')]

求每个卖家的总成交额并按降序排序

df2=df[df['成交额','卖家']].pivot_table(index='卖家',aggfunc='sum').nlargest(10,columns='成交额')

df2[0:10]

总成交额的随卖家数量的折线图

df2['累计成交额']=df2['成交额'].cumsum()

df2['累计占比']=df2['累计成交额']/df2['成交额'].sum()

df2

s=df2['累计占比'].reset_index(drop=True)

s.index=s.index+1

s.plot(kind='line')

成交额前十名绘图

df2[0:10].plot(kind='line')

75.5484

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子