京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Destiny
来源 | 木东居士
0x00 前言
数据图表的选择(上),分享了「时序数据」和「比例数据」的可视化图表方案。
不同的数据类型、不同的阐述目的,决定了数据可视化展现形式的差异。因此,今天这篇文章,主要是分享两类不同的可视化目的及其可选择的图表形式。
0x01 对比型数据可视化
在实际工作中,我们经常需要对比多组数据之间的差异,而这些差异通常是通过不同的标记和视觉通道体现出来。
1.柱状图
在《数据图表的选择(上)》有写到,柱状图是离散时间数据可视化的方式之一,只不过这里的系列值的数据类型是「时间」而已。
柱状图除了可以用于离散时间数据的可视化,更多的是用于比较不同分类数据的可视化,且柱状图的数据条数,最好不要超过12条。
以下根据数据类别的个数和可视化的目的,细化柱状图的图表选择:
2.条形图
条形图,可以视为是柱状图的一种变体,在大部分情况下,是可以互换的。那么在哪些情况下,条形图能比柱状图更好的展示数据呢?
3.面积图
面积图,是折线图的一种延伸,其实就是折线图和折线图投影到X轴的直线所围成的面积。
按照对比方式的不同,面积图可以分为:「重叠对比型面积图」和「堆砌对比型面积图」,两者的区别如下。
面积图,一般也是用于趋势分析中。
当需要分析各个系列,随时间的变化趋势时,此时使用「重叠对比型面积图」比较合适;当既需要分析整体随时间的变化趋势,又要了解整体的各构成项随时间的变化趋势时,使用「堆砌对比型面积图」比较合适。
4.气泡图
气泡图,和散点图的区别是,气泡图一般是用于三维数据的可视化,而散点图是用于二维数据的可视化。
在散点图中,圆点的面积是相同的,主要是通过圆点在坐标轴中的坐标点(X,Y)确定的位置,来映射数据。
而气泡图,是通过气泡的面积大小来对比数据的图形方式,它除了可以反映散点图中坐标点X、Y的相关关系,还有一个维度的数据可以映射到气泡的面积大小上,因此「气泡图」可以在二维平面展示三维信息的数据。
如上图所示,左侧的气泡图,每个气泡展示了三个属性的信息,X-代表人均GDP,Y-代表对应国家的平均寿命,Z-即气泡的大小,代表对应国家的人口数量。所以,相较于散点图而言,气泡图除了可以展示X、Y两个变量间的相关关系,同时还可以对比主体另一个维度的数据,并且这个数据是映射到气泡的大小上的。
当只有一个系列时,只需要一种气泡图只需要一种颜色即可。当有多个系列时,不同系列之间可以用颜色来区别。
5.单词云图
单词云图,主要是用于网络文本中词频数据的可视化,如关键词搜索,文章高频词,热点事件关键词等。
单词云图,是通过单词的字号大小来反映词频的大小,字号越大,词频越高。通常,为了达到贴合主体的特征,以及视觉美观的目的,用户可以自定义单词云的配色方案、背景形状等设计层面的个性化。
通过单词云图,用户可以快速找出网站搜索的高频词汇、了解文章的主旨、get到热点事件的关键信息。但是要注意一点,单次云图只适合表示一组文本数据的对比,不适合多个类别的文本数据之间的比较。
6.雷达图/星状图
当需要对比一个主体、或多个主体本身,在不同维度上的特征时,雷达图和星状图是不错的选择。
雷达图和星状图的区别是:
简单理解就是,雷达图可以视为是星状图中的一行记录。而且,一般情况下,会给予不同维度上的数值一定的权重,从而算出各个主体的综合得分,我们的芝麻信用分就是这么来的。
0x02 分布型数据可视化
数据的分布特征,是统计学中「描述性统计」模块研究的内容。要对数据的分布情况进行可视化呈现,首先需要了解数据的描述性度量(集中趋势、离散程度、偏态和峰度),通过这些反映数据分布特征的关键指标,才能确定能够使用哪些图表来进行可视化展示。
描述性统计的相关内容,可以参考这篇文章《统计学第1篇 描述性统计》。
1.直方图
我们常用的直方图,主要有「频数直方图」和「频率直方图」,它们都是用于展示离散型分组数据的分布情况。
绘制直方图,有如下几步:
若纵轴表示的是频数,则是「频数直方图」;若纵轴展示的是「频率」,则为「频率直方图」,如上图所示。
「频数分布直方图」中,频数乘以组距得出每个分组的数量,可以看出频数分布直方图是用面积来表示频数的,和柱状图(条形图)是用长方形的高度(宽度)表示数量是有本质性区别的。
2.茎叶图
茎叶图一般适合数据为整数的数据的可视化,就目前而言,我工作中用得比较少,简单讲下用法。
茎叶图的原理是,将一组数据按照数据位数进行比较,将数据中的高位数作为树茎,低位数作为树叶。假设有如下一组数据:
3,7,9,14,15,16,25,26,29,36,41,43,45,46,49
数据范围频数0-9310-19320-29330-39140-495
对应的树茎和树叶可以表示为:
树茎树叶03791456256936413569
图形化表示为:
3.箱线图
在描述性统计中,有涉及到分位数相关的知识,其中比较常用的是四分位数,即一组数据中的下四分位数Q1、中位数、上四分位数Q3,关于分位数的概念不清楚的同学可以自行查阅相关资料。
一组数据中的四分位数,加上这组数据的最大值、最小值,这5个特征值,就可以绘制一个箱线图。
箱线图释义:
箱线图常用的场景有如下几类:
(1)对比多组数据的分布情况。
(2)检测数据中的异常值或离群点。
4.概率密度图
若要描述连续型随机变量其分布规律,概率密度图是一种很直观表现形式。
在数学中,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数,简单理解就是,连续型随机变量取值某个确定数值的概率,即为纵切直线与概率密度函数交点的纵坐标的值。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分,也就是区间的上下限与概率密度曲线围成的面积。
通过图形化的方式,我们可以清楚的看到随机变量分布的对称性情况,以及随机变量取值是集中还是分散,这些可以通过偏态系数和峰度系数来度量,此处不深入阐释。
可参照上述气泡图描述部分,不重复赘述。
6.热力图
热力图,是通过密度函数进行可视化,用于表示地图中点的密度的热图。现阶段,热力图在地图、网页分析、业务数据分析等其他领域也有较为广泛的应用。
7.地图
当数据带有地理型信息属性时,首选的可视化图表为地图。按照展示的数据空间划分,地图可以分为二维平面地图和三维立体地图。
比如我们常用的导航软件、天气预报、降水量、台风移动路线等都和地理信息相挂钩,这些数据一般也是在地图上进行呈现,给人以直观的视觉体验。
0xFF 总结
无论是要对比数据,还是研究数据的分布情况,都需要根据数据的类型、数据的特征来确定可视化的最佳方式。
根据数据之间的关系、分析目的、数据特征,来选择和确定相应的图表类型,这个是可视化过程中需要牢牢把握的要点。图表的目的,是为了更直观、准确的呈现数据背后的信息和知识,不同数据关系应该选择什么图表都是有套路的可循的。
但是,如果只是为了使用某个觉得高大上的图表,而不管数据的特征是否适用,则是舍本逐末的做法,最终的可视化效果也必定是不理想的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28