针对SAS用户:Python数据分析库pandas
这篇文章是Randy Betancourt的用于SAS用户的快速入门中的一章。Randy编写这本指南,让SAS用户熟悉Python和Python的各种科学计算工具。
本文包括的主题:
导入包
读.csv文件
检查
处理缺失数据
缺失数据监测
缺失值替换
资源
pandas简介
本章介绍pandas库(或包)。pandas为 Python开发者提供高性能、易用的数据结构和数据分析工具。该包基于NumPy(发音‘numb pie’)中,一个基本的科学计算包,提供ndarray,一个用于数组运算的高性能对象。我们将说明一些有用的NumPy对象来作为说明pandas的方式。
对于数据分析任务,我们经常需要将不同的数据类型组合在一起。一个例子是使用频率和计数的字符串对分类数据进行分组,使用int和float作为连续值。此外,我们希望能够附加标签到列、透视数据等。
我们从介绍对象Series和DataFrame开始。可以认为Series是一个索引、一维数组、类似一列值。可以认为DataFrames是包含行和列的二维数组索引。好比Excel单元格按行和列位置寻址。
换句话说,DataFrame看起来很像SAS数据集(或关系表)。下表比较在SAS中发现的pandas组件。
第6章,理解索引中详细地介绍DataFrame和Series索引。
导入包
为了使用pandas对象, 或任何其它Python包的对象,我们开始按名称导入库到命名空间。为了避免重复键入完整地包名,对NumPy使用np的标准别名,对pandas使用pd。
可以认为Series是含标记的一维数组。这个结构包括用于定位数据键值的标签索引。Series 中的数据可以是任何数据类型。pandas数据类型的详情见这里。在SAS例子中,我们使用Data StepARRAYs类同于Series。
以创建一个含随机值的Series开始:
注意:索引从0开始。大部分SAS自动变量像_n_使用1作为索引开始位置。SAS迭代DO loop 0 to 9结合ARRAY产生一个数组下标超出范围错误。
下面的SAS例子,DO循环用于迭代数组元素来定位目标元素。
SAS中数组主要用于迭代处理如变量。SAS/IML更接近的模拟NumPy数组。但SAS/IML 在这些示例的范围之外。
一个Series可以有一个索引标签列表。
Series由整数值索引,并且起始位置是0。
SAS示例使用一个DO循环做为索引下标插入数组。
返回Series中的前3个元素。
该示例有2个操作。s2.mean()方法计算平均值,随后一个布尔测试小于计算出的平均值。
Series和其它有属性的对象,它们使用点(.)操作符。.name是Series对象很多属性中的一个。
如前所述,DataFrames是带有标签的关系式结构。此外,一个单列的DataFrame是一个Series。
像SAS一样,DataFrames有不同的方法来创建。可以通过加载其它Python对象的值创建DataFrames。数据值也可以从一系列非Python输入资源加载,包括.csv文件、DBMS表、网络API、甚至是SAS数据集(.sas7bdat)等等。具体细节讨论见第11章— pandas Readers。
从读取UK_Accidents.csv文件开始。该文件包括从2015年1月1日到2015年12月31日香港的车辆事故数据。.csv文件位于这里。
一年中的每一天都有很多报告, 其中的值大多是整数。另一个.CSV文件在这里,将值映射到描述性标签。
读.csv文件
在下面的示例中使用默认值。pandas为许多读者提供控制缺失值、日期解析、跳行、数据类型映射等参数。这些参数类似于SAS的INFILE/INPUT处理。
注意额外的反斜杠\来规范化Windows路径名。
PROC IMPORT用于读取同一个.csv文件。它是SAS读.csv文件的几个方法之一。这里我们采用默认值。
与SAS不同,Python解释器正常执行时主要是静默的。调试时,调用方法和函数返回有关这些对象的信息很有用。这有点类似于在SAS日志中使用PUT来检查变量值。
下面显示了size、shape和ndim属性(分别对应于,单元格个数、行/列、维数)。
读校验
读取一个文件后,常常想了解它的内容和结构。.info()方法返回DataFrame的属性描述。
在SASPROC CONTENTS的输出中,通常会发现同样的信息。
检查
pandas有用于检查数据值的方法。DataFrame的.head()方法默认显示前5行。.tail()方法默认显示最后5行。行计数值可以是任意整数值,如:
SAS使用FIRSTOBS和OBS选项按照程序来确定输入观察数。SAS代码打印uk_accidents数据集的最后20个观察数:
5 rows × 27 columns
OBS=n在SAS中确定用于输入的观察数。
PROC PRINT的输出在此处不显示。
下面的单元格显示的是范围按列的输出。列列表类似于PROCPRINT中的VAR。注意此语法的双方括号。这个例子展示了按列标签切片。按行切片也可以。方括号[]是切片操作符。这里解释细节。
注意DataFrame的默认索引(从0增加到9)。这类似于SAS中的自动变量n。随后,我们使用DataFram中的其它列作为索引说明这。
下面是SAS程序打印一个带Sec_of_Driver和Time变量的数据集的前10个观察数。
PROC PRINT的输出在此处不显示。
处理缺失数据
在分析数据之前,一项常见的任务是处理缺失数据。Pandas使用两种设计来表示缺失数据,NaN(非数值)和PythonNone对象。
下面的单元格使用PythonNone对象代表数组中的缺失值。相应地,Python推断出数组的数据类型是对象。可惜的是,对一个聚合函数使用PythonNone对象引发一个异常。
为了减轻上述错误的发生,在下面的数组例子中使用np.nan(缺失数据指示符)。也要注意Python如何为数组选择浮点数(或向上转型)。
并不是所有使用NaN的算数运算的结果是NaN。
对比上面单元格中的Python程序,使用SAS计算数组元素的平均值如下。SAS排除缺失值,并且利用剩余数组元素来计算平均值。
缺失值的识别
回到DataFrame,我们需要分析所有列的缺失值。Pandas提供四种检测和替换缺失值的方法。它们是:
下面我们将详细地研究每个方法。
解决缺失数据分析的典型SAS编程方法是,编写一个程序使用计数器变量遍历所有列,并使用IF/THEN测试缺失值。
这可以沿着下面的输出单元格中的示例行。df.columns返回DataFrame中的列名称序列。
虽然这给出了期望的结果,但是有更好的方法。
另外,如果你发现自己想使用迭代处理来解决一个pandas操作(或Python),停下来,花一点时间做研究。可能方法或函数已经存在!
案例如下所示。它将.sum()属性链接到.isnull()属性来返回DataFrame中列的缺失值的计数。
.isnull()方法对缺失值返回True。通过将.sum()方法链接到.isnull()方法,它会生成每个列的缺失值的计数。
为了识别缺失值,下面的SAS示例使用PROC格式来填充缺失和非缺失值。缺失值对于数值默认用(.)表示,而字符串变量用空白(‘ ‘)表示。因此,两种类型都需要用户定义的格式。
PROC FREQ与自变量_CHARACTER_和_NUMERIC_一起使用,为每个变量类型生成频率列表。
由于为每个变量产生单独的输出,因此仅显示SAS输出的一部分。与上面的Pythonfor循环示例一样,变量time是唯一有缺失值的变量。
用于检测缺失值的另一种方法是通过对链接属性.isnull().any()使用axis=1参数逐列进行搜索。
5 rows × 27 columns
缺失值替换
下面的代码用于并排呈现多个对象。它来自Jake VanderPlas的使用数据的基本工具。它显示对象更改“前”和“后”的效果。
为了说明.fillna()方法,请考虑用以下内容来创建DataFrame。
默认情况下,.dropna()方法删除其中找到任何空值的整个行或列。
.dropna()方法也适用于列轴。axis = 1和axis = "columns"是等价的。
显然,这会丢弃大量的“好”数据。thresh参数允许您指定要为行或列保留的最小非空值。在这种情况下,行"d"被删除,因为它只包含3个非空值。
可以插入或替换缺失值,而不是删除行和列。.fillna()方法返回替换空值的Series或DataFrame。下面的示例将所有NaN替换为零。
正如你可以从上面的单元格中的示例看到的,.fillna()函数应用于所有的DataFrame单元格。我们可能不希望将df["col2"]中的缺失值值替换为零,因为它们是字符串。该方法应用于使用.loc方法的目标列列表。第05章–了解索引中讨论了.loc方法的详细信息。
基于df["col6"]的平均值的填补方法如下所示。.fillna()方法查找,然后用此计算值替换所有出现的NaN。
相应的SAS程序如下所示。PROC SQL SELECT INTO子句将变量col6的计算平均值存储到宏变量&col6_mean中。这之后是一个数据步骤,为col3 - col5迭代数组x ,并用&col6_mean替换缺失值。
SAS/Stat具有用于使用这里描述的一系列方法来估计缺失值的PROC MI。PROC MI在这些示例的范围之外。
.fillna(method="ffill")是一种“前向”填充方法。NaN被上面的“下”列替换为相邻单元格。下面的单元格将上面创建的DataFramedf2与使用“前向”填充方法创建的数据框架df9进行对比。
类似地,.fillna(bfill)是一种“后向”填充方法。NaN被上面的“上”列替换为相邻单元格。下面的单元格将上面创建的DataFramedf2与使用“后向”填充方法创建的数据框架df10进行对比。
下面我们对比使用‘前向’填充方法创建的DataFramedf9,和使用‘后向’填充方法创建的DataFramedf10。
在删除缺失行之前,计算在事故DataFrame中丢失的记录部分,创建于上面的df。
DataFrame中的24个记录将被删除。记录删除部分为0.009%
除了错误的情况,.dropna()是函数是静默的。我们可以在应用该方法后验证DataFrame的shape。
资源
来源于pandas.pydata.org的10 分钟了解pandas。
教程, 并且在这个链接下面是pandas Cookbook的链接,来自pandas.pydata.org的pandas 0.19.1文档。
pandas Python数据分析库的主页。
Python数据科学手册,使用数据工作的基本工具,作者Jake VanderPlas。
pandas:Python中的数据处理和分析,来自2013 BYU MCL Bootcamp文档。
Greg Reda的介绍pandas数据结构。这是一个三部分系列使用Movie Lens数据集很好地说明pandas。
备忘单:Mark Graph的pandas DataFrame对象,并且位于爱达荷大学的网站。
使用pandas 0.19.1文档处理缺失数据。
读这本书
这篇文章是Randy Betancourt的Python SAS用户快速入门指南的摘录。查看完整的章节列表。
关于Randy
Randy Betancourt曾在SAS研究所和国际分析研究所担任过多个客户和执行官角色。公司执行面临角色度过他的职业生涯。从技术架构师开始,最近担任顾问,他建议企业领导如何培养和成本有效地管理他们的分析资源组合。最近,这些讨论和努力集中于现代化战略,鉴于行业创新的增长。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03