京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者:Baijayanta Roy
来源:towardsdatascience
编译&内容补充:早起Python
在用python进行机器学习或者日常的数据处理中,pandas是最常用的Python库之一,熟练掌握pandas是每一个数据科学家的必备技能,本文将用代码+图片详解Pandas中的四个实用函数!
shift()
假设我们有一组股票数据,需要对所有的行进行移动,或者获得前一天的股价,又或是计算最近三天的平均股价。
面对这样的需求我们可以选择自己写一个函数完成,但是使用pandas中的shift()可能是最好的选择,它可以将数据按照指定方式进行移动!
下面我们用代码进行演示,首先导入相关库并创建示例DataFrame
import pandas as pd import numpy as np df = pd.DataFrame({'DATE': [1, 2, 3, 4, 5], 'VOLUME': [100, 200, 300,400,500], 'PRICE': [214, 234, 253,272,291]})
现在,当我们执行df.shift(1,fill_value=0)即可将数据往下移动一行,并用0填充空值
现在,如果我们需要将前一天的股价作为新的列,则可以使用下面的代码
我们可以如下轻松地计算最近三天的平均股价,并创建一个新的列
向前移动数据也是很轻松的,使用-1即可
更多有关shift函数可以查阅官方文档,总之在涉及到数据移动时,你需要想到shift!
value_counts()
pandas中的value_counts()用于统计dataframe或series中不同数或字符串出现的次数,并可以通过降序或升序对结果对象进行排序,下图可以方便理解。
现在让我们用代码示例,首先是Index对象
下面是Series对象
同时可以对bin参数将结果划分为区间
更多的细节与参数设置,可以阅读pandas官方文档。
mask()
pandas中的mask方法比较冷门,和np.where比较类似,将对cond条件进行判断,如果cond为False,请保留原始值。如果为True,则用other中的相应值替换。
现在我们看下面的DataFrame,在这里我们要更改所有可以被二整除的元素的符号,就可以使用mask
下面是代码实现过程
nlargest()
在很多情况下,我们会遇到需要查找Series或DataFrame的前3名或后5名值的情况,例如,总得分最高的3名学生,或选举中获得的总票数的3名最低候选人
pandas中的nlargest()和nsmallest()是满足此类数据处理要求的最佳答案,下面就是从10个观测值中取最大的三个图解
下面是代码实现过程
但如果有相等的情况出现,那么可以使用first,last,all来进行保留
了解了nlargest()的使用方法后,nsmallest()就显得十分简单,本文就不再赘述,如果还有疑问可以查阅官方文档!
——热门课程推荐:
想从事业务型数据分析师,您可以点击>>>“数据分析师”了解课程详情;
想从事大数据分析师,您可以点击>>>“大数据就业”了解课程详情;
想成为人工智能工程师,您可以点击>>>“人工智能就业”了解课程详情;
想了解Python数据分析,您可以点击>>>“Python数据分析师”了解课程详情;
想咨询互联网运营,你可以点击>>>“互联网运营就业班”了解课程详情;
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
多层感知机(MLP,Multilayer Perceptron)作为深度学习中最基础、最经典的神经网络模型,其结构设计直接决定了模型的拟合能力、 ...
2026-03-30在TensorFlow深度学习实战中,数据集的加载与预处理是基础且关键的第一步。手动下载、解压、解析数据集不仅耗时费力,还容易出现 ...
2026-03-30在CDA(Certified Data Analyst)数据分析师的日常工作中,“无监督分组、挖掘数据内在聚类规律”是高频核心需求——电商场景中 ...
2026-03-30机器学习的本质,是让模型通过对数据的学习,自主挖掘规律、实现预测与决策,而这一过程的核心驱动力,并非单一参数的独立作用, ...
2026-03-27在SQL Server数据库操作中,日期时间处理是高频核心需求——无论是报表统计中的日期格式化、数据筛选时的日期类型匹配,还是业务 ...
2026-03-27在CDA(Certified Data Analyst)数据分析师的能力体系与职场实操中,高维数据处理是高频且核心的痛点——随着业务场景的复杂化 ...
2026-03-27在机器学习建模与数据分析实战中,特征维度爆炸、冗余信息干扰、模型泛化能力差是高频痛点。面对用户画像、企业经营、医疗检测、 ...
2026-03-26在这个数据无处不在的时代,数据分析能力已不再是数据从业者的专属技能,而是成为了职场人、管理者、创业者乃至个人发展的核心竞 ...
2026-03-26在CDA(Certified Data Analyst)数据分析师的能力体系中,线性回归是连接描述性统计与预测性分析的关键桥梁,也是CDA二级认证的 ...
2026-03-26在数据分析、市场研究、用户画像构建、学术研究等场景中,我们常常会遇到多维度、多指标的数据难题:比如调研用户消费行为时,收 ...
2026-03-25在流量红利见顶、获客成本持续攀升的当下,营销正从“广撒网”的经验主义,转向“精耕细作”的数据驱动主义。数据不再是营销的辅 ...
2026-03-25在CDA(Certified Data Analyst)数据分析师的全流程工作中,无论是前期的数据探索、影响因素排查,还是中期的特征筛选、模型搭 ...
2026-03-25在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24在CDA(Certified Data Analyst)数据分析师的日常业务分析与统计建模工作中,多组数据差异对比是高频且核心的分析场景。比如验 ...
2026-03-24日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23在CDA(Certified Data Analyst)数据分析师的日常工作与认证考核中,分类变量的关联分析是高频核心场景。用户性别是否影响商品 ...
2026-03-23在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20