詹惠儿

2018-11-12   阅读量: 675

数据分析师 Python编程 Python数据分析

如何在python中进行描述性分析?

扫码加入数据分析学习群

描述性统计信息是了解数据特征并快速汇总数据的有用方法。python中的pandas提供了一个有趣的方法describe()。describe函数对数据集应用基本统计计算,如极值,数据点标准偏差等。自动跳过任何缺失值或NaN值。describe()函数给出了数据分布的大致情况。

DF.describe()

这是在代码上运行时输出的输出:

另一个有用的方法,如果value_counts()可以计算分类属性值系列中每个类别的计数。例如,假设您正在处理客户数据集,这些客户在列名称年龄下划分为年轻,中等和旧类别,而您的数据框架为“DF”。您可以运行此语句以了解有多少人属于各自的类别。在我们的数据集示例中,可以使用教育列

DF["education"].value_counts()

上面代码的输出将是:

另一个有用的工具是boxplot,您可以通过matplotlib模块使用它。Boxplot是数据分布的图形表示,显示极值,中位数和四分位数。我们可以通过使用箱线图轻松找出异常值。现在考虑我们再次处理的数据集,并绘制属性总体的箱线图

import pandas as pd
import matplotlib.pyplot as plt
DF = pd.read_csv("https://raw.githubusercontent.com / fivethirtyeight / data / master / airline-safety / airline-safety.csv")
y = list(DF.population)
plt.boxplot(y)
plt.show()

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子