京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Destiny
来源 | 木东居士
0x00 前言
数据图表的选择(上),分享了「时序数据」和「比例数据」的可视化图表方案。
不同的数据类型、不同的阐述目的,决定了数据可视化展现形式的差异。因此,今天这篇文章,主要是分享两类不同的可视化目的及其可选择的图表形式。
0x01 对比型数据可视化
在实际工作中,我们经常需要对比多组数据之间的差异,而这些差异通常是通过不同的标记和视觉通道体现出来。
1.柱状图
在《数据图表的选择(上)》有写到,柱状图是离散时间数据可视化的方式之一,只不过这里的系列值的数据类型是「时间」而已。
柱状图除了可以用于离散时间数据的可视化,更多的是用于比较不同分类数据的可视化,且柱状图的数据条数,最好不要超过12条。
以下根据数据类别的个数和可视化的目的,细化柱状图的图表选择:
2.条形图
条形图,可以视为是柱状图的一种变体,在大部分情况下,是可以互换的。那么在哪些情况下,条形图能比柱状图更好的展示数据呢?
3.面积图
面积图,是折线图的一种延伸,其实就是折线图和折线图投影到X轴的直线所围成的面积。
按照对比方式的不同,面积图可以分为:「重叠对比型面积图」和「堆砌对比型面积图」,两者的区别如下。
面积图,一般也是用于趋势分析中。
当需要分析各个系列,随时间的变化趋势时,此时使用「重叠对比型面积图」比较合适;当既需要分析整体随时间的变化趋势,又要了解整体的各构成项随时间的变化趋势时,使用「堆砌对比型面积图」比较合适。
4.气泡图
气泡图,和散点图的区别是,气泡图一般是用于三维数据的可视化,而散点图是用于二维数据的可视化。
在散点图中,圆点的面积是相同的,主要是通过圆点在坐标轴中的坐标点(X,Y)确定的位置,来映射数据。
而气泡图,是通过气泡的面积大小来对比数据的图形方式,它除了可以反映散点图中坐标点X、Y的相关关系,还有一个维度的数据可以映射到气泡的面积大小上,因此「气泡图」可以在二维平面展示三维信息的数据。
如上图所示,左侧的气泡图,每个气泡展示了三个属性的信息,X-代表人均GDP,Y-代表对应国家的平均寿命,Z-即气泡的大小,代表对应国家的人口数量。所以,相较于散点图而言,气泡图除了可以展示X、Y两个变量间的相关关系,同时还可以对比主体另一个维度的数据,并且这个数据是映射到气泡的大小上的。
当只有一个系列时,只需要一种气泡图只需要一种颜色即可。当有多个系列时,不同系列之间可以用颜色来区别。
5.单词云图
单词云图,主要是用于网络文本中词频数据的可视化,如关键词搜索,文章高频词,热点事件关键词等。
单词云图,是通过单词的字号大小来反映词频的大小,字号越大,词频越高。通常,为了达到贴合主体的特征,以及视觉美观的目的,用户可以自定义单词云的配色方案、背景形状等设计层面的个性化。
通过单词云图,用户可以快速找出网站搜索的高频词汇、了解文章的主旨、get到热点事件的关键信息。但是要注意一点,单次云图只适合表示一组文本数据的对比,不适合多个类别的文本数据之间的比较。
6.雷达图/星状图
当需要对比一个主体、或多个主体本身,在不同维度上的特征时,雷达图和星状图是不错的选择。
雷达图和星状图的区别是:
简单理解就是,雷达图可以视为是星状图中的一行记录。而且,一般情况下,会给予不同维度上的数值一定的权重,从而算出各个主体的综合得分,我们的芝麻信用分就是这么来的。
0x02 分布型数据可视化
数据的分布特征,是统计学中「描述性统计」模块研究的内容。要对数据的分布情况进行可视化呈现,首先需要了解数据的描述性度量(集中趋势、离散程度、偏态和峰度),通过这些反映数据分布特征的关键指标,才能确定能够使用哪些图表来进行可视化展示。
描述性统计的相关内容,可以参考这篇文章《统计学第1篇 描述性统计》。
1.直方图
我们常用的直方图,主要有「频数直方图」和「频率直方图」,它们都是用于展示离散型分组数据的分布情况。
绘制直方图,有如下几步:
若纵轴表示的是频数,则是「频数直方图」;若纵轴展示的是「频率」,则为「频率直方图」,如上图所示。
「频数分布直方图」中,频数乘以组距得出每个分组的数量,可以看出频数分布直方图是用面积来表示频数的,和柱状图(条形图)是用长方形的高度(宽度)表示数量是有本质性区别的。
2.茎叶图
茎叶图一般适合数据为整数的数据的可视化,就目前而言,我工作中用得比较少,简单讲下用法。
茎叶图的原理是,将一组数据按照数据位数进行比较,将数据中的高位数作为树茎,低位数作为树叶。假设有如下一组数据:
3,7,9,14,15,16,25,26,29,36,41,43,45,46,49
数据范围频数0-9310-19320-29330-39140-495
对应的树茎和树叶可以表示为:
树茎树叶03791456256936413569
图形化表示为:
3.箱线图
在描述性统计中,有涉及到分位数相关的知识,其中比较常用的是四分位数,即一组数据中的下四分位数Q1、中位数、上四分位数Q3,关于分位数的概念不清楚的同学可以自行查阅相关资料。
一组数据中的四分位数,加上这组数据的最大值、最小值,这5个特征值,就可以绘制一个箱线图。
箱线图释义:
箱线图常用的场景有如下几类:
(1)对比多组数据的分布情况。
(2)检测数据中的异常值或离群点。
4.概率密度图
若要描述连续型随机变量其分布规律,概率密度图是一种很直观表现形式。
在数学中,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数,简单理解就是,连续型随机变量取值某个确定数值的概率,即为纵切直线与概率密度函数交点的纵坐标的值。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分,也就是区间的上下限与概率密度曲线围成的面积。
通过图形化的方式,我们可以清楚的看到随机变量分布的对称性情况,以及随机变量取值是集中还是分散,这些可以通过偏态系数和峰度系数来度量,此处不深入阐释。
可参照上述气泡图描述部分,不重复赘述。
6.热力图
热力图,是通过密度函数进行可视化,用于表示地图中点的密度的热图。现阶段,热力图在地图、网页分析、业务数据分析等其他领域也有较为广泛的应用。
7.地图
当数据带有地理型信息属性时,首选的可视化图表为地图。按照展示的数据空间划分,地图可以分为二维平面地图和三维立体地图。
比如我们常用的导航软件、天气预报、降水量、台风移动路线等都和地理信息相挂钩,这些数据一般也是在地图上进行呈现,给人以直观的视觉体验。
0xFF 总结
无论是要对比数据,还是研究数据的分布情况,都需要根据数据的类型、数据的特征来确定可视化的最佳方式。
根据数据之间的关系、分析目的、数据特征,来选择和确定相应的图表类型,这个是可视化过程中需要牢牢把握的要点。图表的目的,是为了更直观、准确的呈现数据背后的信息和知识,不同数据关系应该选择什么图表都是有套路的可循的。
但是,如果只是为了使用某个觉得高大上的图表,而不管数据的特征是否适用,则是舍本逐末的做法,最终的可视化效果也必定是不理想的。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15