Pandas-描述统计精简笔记

（grade为例表）

1.查看基本统计值：grade.describe(percentiles=None, include=None, exclude=None)

2.每个值出现的次数：imdb.genre.value_counts()

3.等距分箱：
等分：pd.cut(grade.数学,4,labels=["差","中","良","优秀"])
自定义：grade['数学等级'] = pd.cut(grade.数学, [0, 60, 90, 120, 135, 151],right=False , abels=['很差', '不及格', '及格', '良好', '优秀'])

4.等深分箱：pd.qcut(grade.数学,4)

5.排序：
按值单个排序：grade.sort_values(by="数学") （升序）
grade.sort_values(by="数学",ascending=False) （降序）

按值多个排序：grade.sort_values(by=["数学","语文"],ascending=False)

按照索引排序：grade.sort_index()

6.函数应用：
map（是 Series 中特有的方法）
apply（apply 方法既支持 Series，也支持 DataFrame）
applymap（applymap 方法针对于 DataFrame，它作用于 DataFrame 中的每个元素)

7.修改列/索引名称：
grade.rename(columns={'姓名':'name','语文':'Chinese','数学':'math'})
grade.rename(index={0:100,1:101})

8.表合并：

append：
# 对接不上的就会变成空值
grade_one.append(grade_two, sort=False)

# ignore_index 原来数据的行索引不要了
grade_one.append(grade_two,ignore_index=True)

# 可以一次性拼接多个表
grade_one.append([grade_two, grade_one, grade_two], sort=False)

concat：
# 默认以0轴进行拼接, 上下拼接, 和append功能相同
pd.concat([grade_one, grade_two], sort=False)

# join : {'inner', 'outer'}, default 'outer',外连接: outer,内连接: inner
#axis：需要合并连接的轴，0是行，1是列
pd.concat([grade_one, grade_two], axis= , join=' ')

merge：
#拼接字段相同时
pd.merge(grade_one,room,on='姓名',how='left')

#拼借字段不相同时
pd.merge(grade_one,room, left_on = “name” ,right_on = "姓名", how = "left")