作者:俊欣
来源:关于数据分析与可视化
大家好,我是俊欣,本篇文章应该算得上是2022年的第一篇原创了,抱歉,元旦期间小编有点偷懒。
今天小编来给大家讲一下Pandas模块当中的数据统计与排序,说到具体的就是value_counts()方法以及sort_values()方法。
value_counts()方法,顾名思义,主要是用于计算各个类别出现的次数的,而sort_values()方法则是对数值来进行排序,当然除了这些,还有很多大家不知道的衍生的功能等待被挖掘,下面小编就带大家一个一个的说过去。
我们这次用到的数据集是“非常有名”的泰坦尼克号的数据集,该数据源能够在很多平台上都能够找得到
import pandas as pd
df = pd.read_csv("titanic_train.csv")
df.head()
output
首先我们来看一下常规的用法,代码如下
df['Embarked'].value_counts()
output
S 644 C 168 Q 77 Name: Embarked, dtype: int64
下面我们简单来介绍一下value_counts()方法当中的参数,
DataFrame.value_counts(subset=None,
normalize=False,
sort=True,
ascending=False,
dropna=True)
常用到参数的具体解释为:
上面返回的结果是按照从大到小来进行排序的,当然我们也可以反过来,从小到大来进行排序,代码如下
df['Embarked'].value_counts(ascending=True)
output
Q 77 C 168 S 644 Name: Embarked, dtype: int64
同时我们也可以对索引,按照字母表的顺序来进行排序,代码如下
df['Embarked'].value_counts(ascending=True).sort_index(ascending=True)
output
C 168 Q 77 S 644 Name: Embarked, dtype: int64
当中的ascending=True指的是升序排序
默认的是value_counts()方法不会对空值进行统计,那要是我们也希望对空值进行统计的话,就可以加上dropna参数,代码如下
df['Embarked'].value_counts(dropna=False)
output
S 644 C 168 Q 77 NaN 2 Name: Embarked, dtype: int64
我们可以将数值的统计转化成百分比式的统计,可以更加直观地看到每一个类别的占比,代码如下
df['Embarked'].value_counts(normalize=True)
output
S 0.724409 C 0.188976 Q 0.086614 Name: Embarked, dtype: float64
要是我们希望对能够在后面加上一个百分比的符号,则需要在Pandas中加以设置,对数据的展示加以设置,代码如下
pd.set_option('display.float_format', '{:.2%}'.format) df['Embarked'].value_counts(normalize = True)
output
S 72.44% C 18.90% Q 8.66% Name: Embarked, dtype: float64
当然除此之外,我们还可以这么来做,代码如下
df['Embarked'].value_counts(normalize = True).to_frame().style.format('{:.2%}')
output
Embarked S 72.44% C 18.90% Q 8.66%
和Pandas模块当中的cut()方法相类似的在于,我们这里也可以将连续型数据进行分箱然后再来统计,代码如下
df['Fare'].value_counts(bins=3)
output
(-0.513, 170.776] 871 (170.776, 341.553] 17 (341.553, 512.329] 3 Name: Fare, dtype: int64
我们将Fare这一列同等份的分成3组然后再来进行统计,当然我们也可以自定义每一个分组的上限与下限,代码如下
df['Fare'].value_counts(bins=[-1, 20, 100, 550])
output
(-1.001, 20.0] 515 (20.0, 100.0] 323 (100.0, 550.0] 53 Name: Fare, dtype: int64
pandas模块当中的groupby()方法允许对数据集进行分组,它也可以和value_counts()方法联用更好地来进行统计分析,代码如下
df.groupby('Embarked')['Sex'].value_counts()
output
Embarked Sex C male 95 female 73 Q male 41 female 36 S male 441 female 203 Name: Sex, dtype: int64
上面的代码是针对“Embarked”这一类别下的“Sex”特征进行分组,然后再进一步进行数据的统计分析,当然出来的结果是Series数据结构,要是我们想让Series的数据结果编程DataFrame数据结构,可以这么来做,
df.groupby('Embarked')['Sex'].value_counts().to_frame()
下面我们来谈一下数据的排序,主要用到的是sort_values()方法,例如我们根据“年龄”这一列来进行排序,排序的方式为降序排,代码如下
df.sort_values("Age", ascending = False).head(10)
output
我们看到排序过之后的DataFrame数据集行索引依然没有变,我们希望行索引依然可以是从0开始依次的递增,就可以这么来做,代码如下
df.sort_values("Age", ascending = False, ignore_index = True).head(10)
output
下面我们简单来介绍一下sort_values()方法当中的参数
DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', # last,first;默认是last ignore_index=False, key=None)
常用到参数的具体解释为:
我们还可以对多个字段进行排序,代码如下
df.sort_values(["Age", "Fare"], ascending = False).head(10)
output
同时我们也可以对不同的字段指定不同的排序方式,如下
df.sort_values(["Age", "Fare"], ascending = [False, True]).head(10)
output
我们可以看到在“Age”一样的情况下,“Fare”字段是按照升序的顺序来排的
我们可以自定义一个函数方法,然后运用在sort_values()方法当中,让其按照自己写的方法来排序,我们看如下的这组数据
df = pd.DataFrame({ 'product': ['keyboard', 'mouse', 'desk', 'monitor', 'chair'], 'category': ['C', 'C', 'O', 'C', 'O'], 'year': [2002, 2002, 2005, 2001, 2003], 'cost': ['$52', '$24', '$250', '$500', '$150'], 'promotion_time': ['20hr', '30hr', '20hr', '20hr', '2hr'],
})
output
当中的“cost”这一列带有美元符号“$”,因此就会干扰排序的正常进行,我们使用lambda方法自定义一个函数方法运用在sort_value()当中
df.sort_values( 'cost',
key=lambda val: val.str.replace('$', '').astype('float64')
)
output
当然我们还可以自定义一个更加复杂一点的函数,并且运用在sort_values()方法当中,代码如下
def sort_by_cost_time(x): if x.name == 'cost': return x.str.replace('$', '').astype('float64') elif x.name == 'promotion_time': return x.str.replace('hr', '').astype('int') else: return x
df.sort_values(
['year', 'promotion_time', 'cost'],
key=sort_by_cost_time
)
output
还有另外一种情况,例如我们遇到衣服的尺码,XS码、S码、M码、L码又或者是月份,Jan、Feb、Mar、Apr等等,需要我们自己去定义大小,这个时候我们需要用到的是CategoricalDtype
cat_size_order = CategoricalDtype(
['XS', 'S', 'M', 'L', 'XL'],
ordered=True
)
cat_size_order
output
CategoricalDtype(categories=['XS', 'S', 'M', 'L', 'XL'], ordered=True)
于是针对下面的数据
df = pd.DataFrame({ 'cloth_id': [1001, 1002, 1003, 1004, 1005, 1006], 'size': ['S', 'XL', 'M', 'XS', 'L', 'S'],
})
output
我们将事先定义好的顺序应用到该数据集当中,代码如下
df['size'] = df['size'].astype(cat_size_order)
df.sort_values('size')
output
先通过astype()来转换数据类型,然后再进行排序
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03