
导读:对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。
作者:张良均 谭立云 刘名军 江建明
来源:大数据DT(ID:hzdashuju)
内容摘编自《Python数据分析与挖掘实战》
其中,分布分析能揭示数据的分布特征和分布类型。本文就手把手教你做分布分析。
对于定量数据,要想了解其分布形式是对称的还是非对称的、发现某些特大或特小的可疑值,可做出频率分布表、绘制频率分布直方图、绘制茎叶图进行直观分析;对于定性数据,可用饼图和条形图直观地显示其分布情况。
01 定量数据的分布分析
对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行:
第一步:求极差。
第二步:决定组距与组数。
第三步:决定分点。
第四步:列出频率分布表。
第五步:绘制频率分布直方图。
遵循的主要原则如下:
各组之间必须是相互排斥的。
各组必须将所有的数据包含在内。
各组的组宽最好相等。
下面结合具体实例来运用分布分析对定量数据进行特征分析。
表3-2是菜品“捞起生鱼片”在2014年第二个季度的销售数据,绘制销售量的频率分布表、频率分布图,对该定量数据做出相应的分析。
▲表3-2 “捞起生鱼片”的销售情况
1. 求极差
极差=最大值-最小值=3960-45=3915
2. 分组
这里根据业务数据的含义,可取组距为500.则组数如下所示。
组数=极差/组距=3915/500=7.83≈8
3. 决定分点
分布区间如表3-3所示。
▲表3-3 分布区间
4. 绘制频率分布直方表
根据分组区间得到如表3-4所示的频率分布表。
其中,第1列将数据所在的范围分成若干组段,其中第1个组段要包括最小值,最后一个组段要包括最大值。习惯上将各组段设为左闭右开的半开区间,如第一个组段为[0.500)。
第2列组中值是各组段的代表值,由本组段的上限值和下限值相加除以2得到。
第3列和第4列分别为频数和频率。
第5列是累计频率,是否需要计算该列数值视情况而定。
▲表3-4 频率分布
5. 绘制频率分布直方图
若以2014年第二季度“捞起生鱼片”这道菜每天的销售额组段为横轴,以各组段的频率密度(频率与组距之比)为纵轴,表3-4中的数据可绘制成频率分布直方图,如代码清单3-3所示。
代码清单3-3 “捞起生鱼片”的季度销售情况
import pandas as pd
import numpy as np
catering_sale = '../data/catering_fish_congee.xls' # 餐饮数据
data = pd.read_excel(catering_sale,names=['date','sale']) # 读取数据,指定“日期”
列为索引
bins = [0.500.1000.1500.2000.2500.3000.3500.4000]
labels = ['[0.500)','[500.1000)','[1000.1500)','[1500.2000)',
'[2000.2500)','[2500.3000)','[3000.3500)','[3500.4000)']
data['sale分层'] = pd.cut(data.sale, bins, labels=labels)
aggResult = data.groupby(by=['sale分层'])['sale'].agg({'sale': np.size})
pAggResult = round(aggResult/aggResult.sum(), 2. ) * 100
import matplotlib.pyplot as plt
plt.figure(figsize=(10.6)) # 设置图框大小尺寸
pAggResult['sale'].plot(kind='bar',width=0.8.fontsize=10) # 绘制频率直方图
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.title('季度销售额频率分布直方图',fontsize=20)
plt.show()
运行代码清单3-3可得季度销售额频率分布直方图,如图3-3所示。
▲图3-3 季度销售额频率分布直方图
02 定性数据的分布分析
对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布,如代码清单3-4所示。
代码清单3-4 不同菜品在某段时间的销售量分布情况
import pandas as pd
import matplotlib.pyplot as plt
catering_dish_profit = '../data/catering_dish_profit.xls'# 餐饮数据
data = pd.read_excel(catering_dish_profit) # 读取数据,指定“日期”列
为索引
# 绘制饼图
x = data['盈利']
labels = data['菜品名']
plt.figure(figsize=(8. 6)) # 设置画布大小
plt.pie(x,labels=labels) # 绘制饼图
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.title('菜品销售量分布(饼图)') # 设置标题
plt.axis('equal')
plt.show()
# 绘制条形图
x = data['菜品名']
y = data['盈利']
plt.figure(figsize=(8. 4)) # 设置画布大小
plt.bar(x,y)
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.xlabel('菜品') # 设置x轴标题
plt.ylabel('销量') # 设置y轴标题
plt.title('菜品销售量分布(条形图)')# 设置标题
plt.show() # 展示图片
饼图的每一个扇形部分代表每一类型的所占百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一部分的大小与每一类型的频数成正比;条形图的高度代表每一类型的百分比或频数,条形图的宽度没有意义。
运行代码清单3-4可得不同菜品在某段时间的销售量分布图,如图3-4和图3-5所示。
▲图3‑4 菜品销售量分布(饼图)
▲图3‑5 菜品销售量分布(条形图)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18SPSS 赋值后数据不显示?原因排查与解决指南 在 SPSS( Statistical Package for the Social Sciences)数据分析过程中,变量 ...
2025-07-18在 DBeaver 中利用 MySQL 实现表数据同步操作指南 在数据库管理工作中,将一张表的数据同步到另一张表是常见需求,这有助于 ...
2025-07-18数据分析师的技能图谱:从数据到价值的桥梁 在数据驱动决策的时代,数据分析师如同 “数据翻译官”,将冰冷的数字转化为清晰的 ...
2025-07-17Pandas 写入指定行数据:数据精细化管理的核心技能 在数据处理的日常工作中,我们常常需要面对这样的场景:在庞大的数据集里精 ...
2025-07-17解码 CDA:数据时代的通行证 在数字化浪潮席卷全球的今天,当企业决策者盯着屏幕上跳动的数据曲线寻找增长密码,当科研人员在 ...
2025-07-17CDA 精益业务数据分析:数据驱动业务增长的实战方法论 在企业数字化转型的浪潮中,“数据分析” 已从 “加分项” 成为 “必修课 ...
2025-07-16MySQL 中 ADD KEY 与 ADD INDEX 详解:用法、差异与优化实践 在 MySQL 数据库表结构设计中,索引是提升查询性能的核心手段。无论 ...
2025-07-16解析 MySQL Update 语句中 “query end” 状态:含义、成因与优化指南 在 MySQL 数据库的日常运维与开发中,开发者和 DBA 常会 ...
2025-07-16如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-15CDA 精益业务数据分析:驱动企业高效决策的核心引擎 在数字经济时代,企业面临着前所未有的数据洪流,如何从海量数据中提取有 ...
2025-07-15MySQL 无外键关联表的 JOIN 实战:数据整合的灵活之道 在 MySQL 数据库的日常操作中,我们经常会遇到需要整合多张表数据的场景 ...
2025-07-15Python Pandas:数据科学的瑞士军刀 在数据驱动的时代,面对海量、复杂的数据,如何高效地进行处理、分析和挖掘成为关键。 ...
2025-07-15用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11