如何巧妙地用python处理数据整理中分类汇总问题-CDA数据分析师官网

热线电话：13121318867

首页CDA发布如何巧妙地用python处理数据整理中分类汇总问题

如何巧妙地用python处理数据整理中分类汇总问题

2022-01-20

如何巧妙地用python处理数据整理中分类汇总问题

数据分析职场新人，精通一门语言至关重要。写个web服务，可以用python、写个服务器脚本，可以用python、数据清洗和网络爬虫，可以用python、做机器学习数据挖掘，可以用python等等，所以说人生苦短，我用Python。

下面的问题是数据整理中经典的分类汇总问题，各个软件，SAS、R语言甚至Excel都可以比较好地解决此问题，但Python解决此问题时，也可以做到“一剑封喉”，并体现出其独特的优势，我们先看问题：

题目：下列数据来自某市房地产公司的资料，试按房屋类型和每一房屋类型下卧室个数的多少计算其平均售价？

问题比较清楚，这是一个按照“房屋类型”和“卧室个数的多少”的双条件汇总问题，即考虑在A和B两个条件下的数据分类汇总问题。该问题在工作中是常见的问题，如果在Excel完成，要依靠数据的预处理和较为复杂的函数来进行。

我们先来试算一下，比如，先看第5行，在“RANCH”这个房屋类型下，“BEDROOMS”个数为3的数据记录总共有2条，即第“5”条和第“11”条，其房价分别是“$86,650”和“$89,100”，不难算出其平均价格为“$87,875”。

用Python的Pandas（专门进行数据处理的模块）计算，首先面临的问题是如何导入数据，并且把房屋价格里面的“$”和“,”去掉，这样才能进行计算。于是一个双条件分类汇总的问题变成了字符处理的问题。

当然不可能手动去读入数据，最简洁的方式是将数据选择鼠标右键复制下来，然后这样导入：

导入让把所有的数据赋给“a”，“a”的数据结构看一下是：

告诉我们是“字符串”。面对字符串，进一步显示“a”，发现其被“n”分割：

于是想办法去掉“n”。去掉“n”不是很难，一句“a.split("n")”就可以去掉。但是进一步我们发现，各个变量是以空格“ ”相连的，所以还要去掉这个空格以便进一步计算。这里利用Python常用的“逐行扫描”技巧来完成。通常前面要先定义一个空的list，比如b：

这一步完成之后，一定要看一下b的结果，如下图所示：

下一步就是要去掉价格price里面的“$”和“,”了，这一步完成的方法比较多，最朴素的想法是用什么都没有的“”去置换这2个元素：

这里又用到Python的“for”循环的“逐行扫描”的技巧。这一步将“b”变成：

到了这一步，离结果只有“一步之遥”了。为了保险起见，我们把所有的变量都“数值化”，使用下面的语句去遍历：

得到如下的结果：

仔细比较一下前图，发现字符串都变成了数字。

到了这时候，就是“临门一脚”了，我们把数据整理成为我们熟悉的“数据框”的形式，这一步让Pandas来上场，经过整理之后，数据变得“赏心悦目”：

请注意，这条语句中，指明第一行是变量名。

通常，面临这样的数据，要进行各种计算是非常方便的。比如，要完成一开始题目提出的问题，只需一句话即得结果：

这句“画龙点睛”之笔是用groupby这个函数把数据按照2个条件分组，然后计算其均值。“.”加函数的方式是Python里面常用的形式。

我们看一下Python计算结果里面的“RANCH”和“3”，是“87875”，与我们之前计算的完全吻合。这样我们就按要求用Python完成了该数据的整理汇总。

数据的整理汇总是进行数据分析和数据挖掘工作的前期准备，比较重要，往往占用很大一部分时间。数据清洗的能力有时候直接决定数据挖掘建模预测的成败。通过该简单的小例子，向大家展示了Python中的Pandas在这方面的优势和方法。当然，Python及Pandas神通广大，远远不止做这些简单的工作，希望大家掌握这个数据分析利器，在大数据时代更好更充分的发掘数据的价值。

PS：这只是课程中的一个小案例，强化的培训，应该让你学完后很自信，学以致用，快速上手解决工作中的问题，深圳现场班&长沙远程直播班2018年1月12日开课，想学习python朋友私聊张老师。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；