京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在上篇文章中介绍了matplotlib绘制直方图的前五个参数,实际上直方图一共有十几个参数,剩下的参数利用这篇文章解释清楚,让大家能够将如何绘制直方图理解的透透的。
这个参数的含义也很直观,底部的意思,指的是条形的底从哪里开始。这个参数接收标量和序列,或者None,默认为None,如果是标量,则所有条形的底都从同一个数值处开始,如果为序列,则可以指定每个条形的底不一致。
fig = plt.figure(figsize=(16,4))
pic1 = fig.add_subplot(131)
plt.hist(data,bins = 10)
plt.title("bottom默认None")
pic2 = fig.add_subplot(132)
plt.hist(data,bins = 10, bottom=10) # bottom=10,表示所有条形的底部从10开始,默认从0开始
plt.title("bottom=10")
pic3 = fig.add_subplot(133)
plt.hist(data,bins = 10, bottom=np.array([21, 20, 13, 17, 22, 32, 23, 15, 22, 15])) # bottom为序列,序列长度于条形的数量一致,表示每个条的底部从哪里开始
plt.title("bottom取值为序列");
上图是当bottom参数不同取值时绘制出来不同的直方图,第一幅图和第二幅图看起来长的一样,但是仔细观察下就能发现两幅图y轴的起始点时不一样的,第一幅图的起点时0.第二幅图的起点是10,因为bottom参数设置的为10;而第三幅图bottom的参数设置的序列,序列的长度和直方图的组数一致,即每个条形的起始点都不同,具体设置哪种比较好,还是要看具体的业务需求哦。
histtype参数控制的时直方图中条形的展现方式,它接收的参数是固定的字符串,其中常见的是以下两种形式:
fig = plt.figure(figsize=(9,4))
pic1 = fig.add_subplot(121)
plt.hist(data,bins = 10, histtype = "bar")
plt.title(' histtype = "bar"')
pic2 = fig.add_subplot(122)
plt.hist(data,bins = 10, histtype = "step") # histtype默认参数为”bar“,即条形,可以进行指定
plt.title(' histtype = "step"');
如果需要将折线图和直方图绘制到一副图中,可以考虑对条形的形式进行设置。
align参数控制的是条形的位置,能够接收的参数也是指定的字符串,通常大家都用默认值"mid",即中间,这样直方图中的条形会居于前后临界点的中间位置,是最常见的一种:
fig = plt.figure(figsize=(16,4))
pic1 = fig.add_subplot(131)
plt.hist(data,bins = 10, align = "left")
plt.xticks([150. , 152.9, 155.8, 158.7, 161.6, 164.5, 167.4, 170.3, 173.2,176.1, 179. ],rotation = 30)
plt.title("align ='left'")
pic2 = fig.add_subplot(132)
plt.hist(data,bins = 10, align = "right")
plt.xticks([150. , 152.9, 155.8, 158.7, 161.6, 164.5, 167.4, 170.3, 173.2,176.1, 179. ],rotation = 30)
plt.title("align ='right'")
pic3 = fig.add_subplot(133)
plt.hist(data,bins = 10, align = "mid")
plt.xticks([150. , 152.9, 155.8, 158.7, 161.6, 164.5, 167.4, 170.3, 173.2,176.1, 179. ],rotation = 30)
plt.title("align ='mid'");
由于原数据和分箱规则没有变化,所以三个直方图很相近,区别在于x轴上,这里为了能直观的看出区别,特意将每组的临界值添加到了x轴,仔细查看能够看出只有最后一个图才是我们常见的直方图,前两个条形的位置都有偏移。
对条形图比较熟悉的朋友可能对这个参数并不陌生,它是控制条形方向的参数,接收的是特定的字符,即条形的方向是垂直的还是水平的,一般默认绘制的都是垂直方向的,如果需要横向的直方图,直接设置这个参数就好。它接收的参数是指定的字符串,表明条形方向:
fig = plt.figure(figsize=(9,4))
pic1 = fig.add_subplot(121)
plt.hist(data,bins = 10) #默认条形方向为垂直方向
plt.title('orientation默认"vertical"')
pic2 = fig.add_subplot(122)
plt.hist(data,bins = 10,orientation = 'horizontal') # orientation = 'horizontal'表示条形为水平方向
plt.title('orientation = "horizontal"');
参数中可选的两个字符即是垂直还是水平。
从字面上看,这个参数是和宽度有关的,事实也的确是这样。这个参数可以设置条形的宽度,接收数值,但是它设置的宽度是相对于默认宽度而言的,重新设置的宽度是原宽度的几分之几,我们具体看一下代码:
fig = plt.figure(figsize=(9,4))
pic1 = fig.add_subplot(121)
plt.hist(data,bins = 10) #rwidth控制条形的相对宽度,不进行指定,自动计算
plt.title('rwidth默认"None"')
pic2 = fig.add_subplot(122)
plt.hist(data,bins = 10,rwidth=0.8) # 指定条形的相对宽度
plt.title('rwidth=0.8');
如果不进行设置,直方图的各个条形之间是没有空隙的,当我将rwidth设置成0.8之后,条形的宽度就只有原宽度的80%,条形之间也会出现缝隙。
log参数控制是否将刻度设置成对数刻度,接收布尔值,默认为False,进行普通刻度,一旦设置为True:
fig = plt.figure(figsize=(9,4))
pic1 = fig.add_subplot(121)
plt.hist(data,bins = 10)
plt.title('log默认"False"')
pic2 = fig.add_subplot(122)
plt.hist(data,bins = 10,log=True) # 直方图轴将设置为对数刻度。
plt.title('log=True"');
设置成对数刻度后,虽然分组情况没有变,但是分布状况还是发生了变化,如果设置了该参数,最好在标题或其他部分标注提示一下。
这个参数可以说是相当熟悉,很多函数中都有,表示对图形的颜色进行设置,没错的确是设置颜色,想起我们还有一个最开始的参数没有讲解,就在这里和color一起讲解了。
目前我们只有一组数据,现在呢假设有了两个学校学生的身高数据,喏,这就是第二个学校的学生身高了:
data1 = np.random.randint(150,180,200) data1
输出结果:
array([164, 171, 172, 161, 171, 175, 161, 170, 159, 163, 154, 162, 156,
158, 160, 156, 163, 167, 170, 168, 163, 171, 174, 161, 156, 167,
165, 169, 162, 176, 167, 157, 157, 169, 160, 177, 162, 154, 163,
168, 155, 177, 151, 155, 179, 166, 170, 168, 158, 167, 156, 170,
163, 157, 172, 169, 156, 171, 155, 160, 177, 164, 157, 160, 173,
175, 164, 168, 171, 158, 163, 162, 167, 167, 169, 155, 175, 171,
162, 174, 165, 179, 167, 179, 168, 157, 151, 151, 171, 170, 168,
165, 167, 179, 153, 177, 165, 155, 153, 157, 162, 167, 173, 161,
171, 159, 165, 152, 160, 172, 154, 157, 176, 152, 171, 161, 169,
154, 171, 150, 158, 164, 150, 170, 153, 162, 150, 174, 150, 176,
167, 171, 164, 170, 171, 163, 162, 164, 174, 157, 179, 166, 150,
170, 166, 161, 155, 175, 163, 156, 152, 159, 168, 158, 176, 159,
158, 169, 155, 166, 151, 163, 177, 154, 170, 152, 167, 172, 170,
163, 161, 177, 164, 160, 157, 167, 163, 177, 169, 162, 166, 158,
156, 168, 169, 168, 159, 159, 154, 169, 168, 169, 156, 165, 173,
175, 169, 156, 158, 154])
到这里是不是有点明白了,直方图不止可以对一组数据进行绘图,多组数据也是可以的,参数x可以接收多组数据,如果是多组数据需要将多组数据打包到一起作为一个整体传给参数x:
fig = plt.figure(figsize=(16,4))
pic1 = fig.add_subplot(131)
plt.hist(data,bins = 10)
plt.title("color默认None")
pic2 = fig.add_subplot(132)
plt.hist(data,bins = 10, color="r") # 设置颜色为红色
plt.title("color="r"")
pic3 = fig.add_subplot(133)
plt.hist([data,data1],bins = 10, color=["c","orange"])
# color取值为序列,每个数据集对应一种颜色,color序列的长度与数据集个数一致
plt.title("color取值为序列");
能够看到,如果只有一组数据,color参数也就只接收一个颜色指定,如果是多组数据,可以对每个数据集的颜色进行指定,具体需要注意的点已经在代码中备注了哦。
label参数也不是陌生的参数,是对标签的设定,接收的是字符串,并没有什么特殊,但是需要注意的是如果设置了这个参数,记得调用plt.lenged()显示图例,如果不调用即使设置了标签也不能作为图例显示在图形中。而显示图例除了直接在直方图函数中设置label参数外,还可以在plt.lenged()中设置,具体的区别还是看代码吧:
fig = plt.figure(figsize=(11,4))
pic1 = fig.add_subplot(121)
plt.hist([data,data1],bins = 10, color=["c","orange"],label=["data","data1"])
plt.legend()
plt.title('hist函数中设置label参数')
pic2 = fig.add_subplot(122)
plt.hist([data,data1],bins = 10, color=["c","orange"])
plt.legend(["data","data1"])
plt.title('legend函数中设置label参数');
效果是一样的。
这个参数的字面意思也很直观,表示是否要堆叠,接收布尔值。需要注意的是如果绘图只用了一个数据集,那么这个参数无论设置成什么都没有影响,如果要堆叠至少需要两个数据集才能显示出区别:
fig = plt.figure(figsize=(9,4))
pic1 = fig.add_subplot(121)
plt.hist([data,data1],stacked=False) #默认多组数据并列排列
plt.title('stacked默认"False"')
pic2 = fig.add_subplot(122)
plt.hist([data,data1],stacked=True) #多组数据彼此堆叠
plt.title('stacked=True"');
区别是不是很明显了,堆叠的意思也容易理解了对不对?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15