读取并探索数据
df=pd.read_csv('.csv')
df.shape
df.info()
查看数值型字段的描述性统计信息
df.describe(include='all')
#If include='all' is provided as an option, the result will include a union of attributes of each type. The include and exclude parameters can be used to limit which columns in a DataFrame are analyzed for the output.
数据去重
df.duplicated().sum()
df.duplicate()
查看卖家种类信息
df['卖家'].unique()
df['卖家'].nunique()
查看位置种类信息
df['位置'].unique()
df['位置'].nunique()
选出价格最贵的十个宝贝的信息
pd.nlargest(10,df['价格'])
df.nlargest(10,columns='价格')
添加一列 成交额=价格x成交量
位置放在 成交量之后
pd.insert(3,['成交额'])=df['价格']*df['成交量'] #原地修改
pd
挑选出成交额最多的十个宝贝的信息
df[['宝贝','成交额']].nlargest(10,'成交额')
[['宝贝','成交额']].pivot(index='宝贝',aggfunc='sum').nlargest(10,columns='成交额')
df1=df.nlargest(10,'成交额')
df1[['成交额','宝贝']]
查看位置是江苏, 成交额是前5名的宝贝
df1=df[df['位置']=='江苏']
df1['宝贝','成交额'].pivot(index='位置',aggfunc='sum').nlargest(10,columns='成交额')
挑选出卖家含有 ‘旗舰店’的行
df[df['卖家'].str.contains('旗舰店')]
求每个卖家的总成交额并按降序排序
df2=df[df['成交额','卖家']].pivot_table(index='卖家',aggfunc='sum').nlargest(10,columns='成交额')
df2[0:10]
总成交额的随卖家数量的折线图
df2['累计成交额']=df2['成交额'].cumsum()
df2['累计占比']=df2['累计成交额']/df2['成交额'].sum()
df2
s=df2['累计占比'].reset_index(drop=True)
s.index=s.index+1
s.plot(kind='line')
成交额前十名绘图
df2[0:10].plot(kind='line')








暂无数据