CDA117513

2022-02-20   阅读量: 398

Python 淘宝电商案例 python数据清洗案例

python数据清洗案例代码(速查 helpfull!!!)<淘宝电商案例>

扫码加入数据分析学习群

读取并探索数据

df=pd.read_csv('.csv')

df.shape

df.info()

查看数值型字段的描述性统计信息

df.describe(include='all')

#If include='all' is provided as an option, the result will include a union of attributes of each type. The include and exclude parameters can be used to limit which columns in a DataFrame are analyzed for the output.

数据去重

df.duplicated().sum()

df.duplicate()

查看卖家种类信息

df['卖家'].unique()

df['卖家'].nunique()

查看位置种类信息

df['位置'].unique()

df['位置'].nunique()

选出价格最贵的十个宝贝的信息

pd.nlargest(10,df['价格'])

df.nlargest(10,columns='价格')

添加一列 成交额=价格x成交量

位置放在 成交量之后

pd.insert(3,['成交额'])=df['价格']*df['成交量'] #原地修改

pd

挑选出成交额最多的十个宝贝的信息

df[['宝贝','成交额']].nlargest(10,'成交额')

[['宝贝','成交额']].pivot(index='宝贝',aggfunc='sum').nlargest(10,columns='成交额')

df1=df.nlargest(10,'成交额')

df1[['成交额','宝贝']]

查看位置是江苏, 成交额是前5名的宝贝

df1=df[df['位置']=='江苏']

df1['宝贝','成交额'].pivot(index='位置',aggfunc='sum').nlargest(10,columns='成交额')

挑选出卖家含有 ‘旗舰店’的行

df[df['卖家'].str.contains('旗舰店')]

求每个卖家的总成交额并按降序排序

df2=df[df['成交额','卖家']].pivot_table(index='卖家',aggfunc='sum').nlargest(10,columns='成交额')

df2[0:10]

总成交额的随卖家数量的折线图

df2['累计成交额']=df2['成交额'].cumsum()

df2['累计占比']=df2['累计成交额']/df2['成交额'].sum()

df2

s=df2['累计占比'].reset_index(drop=True)

s.index=s.index+1

s.plot(kind='line')

成交额前十名绘图

df2[0:10].plot(kind='line')


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
75.5484 6 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子