京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Destiny
来源 | 木东居士
0x00 前言
数据图表的选择(上),分享了「时序数据」和「比例数据」的可视化图表方案。
不同的数据类型、不同的阐述目的,决定了数据可视化展现形式的差异。因此,今天这篇文章,主要是分享两类不同的可视化目的及其可选择的图表形式。
0x01 对比型数据可视化
在实际工作中,我们经常需要对比多组数据之间的差异,而这些差异通常是通过不同的标记和视觉通道体现出来。
1.柱状图
在《数据图表的选择(上)》有写到,柱状图是离散时间数据可视化的方式之一,只不过这里的系列值的数据类型是「时间」而已。
柱状图除了可以用于离散时间数据的可视化,更多的是用于比较不同分类数据的可视化,且柱状图的数据条数,最好不要超过12条。
以下根据数据类别的个数和可视化的目的,细化柱状图的图表选择:
2.条形图
条形图,可以视为是柱状图的一种变体,在大部分情况下,是可以互换的。那么在哪些情况下,条形图能比柱状图更好的展示数据呢?
3.面积图
面积图,是折线图的一种延伸,其实就是折线图和折线图投影到X轴的直线所围成的面积。
按照对比方式的不同,面积图可以分为:「重叠对比型面积图」和「堆砌对比型面积图」,两者的区别如下。
面积图,一般也是用于趋势分析中。
当需要分析各个系列,随时间的变化趋势时,此时使用「重叠对比型面积图」比较合适;当既需要分析整体随时间的变化趋势,又要了解整体的各构成项随时间的变化趋势时,使用「堆砌对比型面积图」比较合适。
4.气泡图
气泡图,和散点图的区别是,气泡图一般是用于三维数据的可视化,而散点图是用于二维数据的可视化。
在散点图中,圆点的面积是相同的,主要是通过圆点在坐标轴中的坐标点(X,Y)确定的位置,来映射数据。
而气泡图,是通过气泡的面积大小来对比数据的图形方式,它除了可以反映散点图中坐标点X、Y的相关关系,还有一个维度的数据可以映射到气泡的面积大小上,因此「气泡图」可以在二维平面展示三维信息的数据。
如上图所示,左侧的气泡图,每个气泡展示了三个属性的信息,X-代表人均GDP,Y-代表对应国家的平均寿命,Z-即气泡的大小,代表对应国家的人口数量。所以,相较于散点图而言,气泡图除了可以展示X、Y两个变量间的相关关系,同时还可以对比主体另一个维度的数据,并且这个数据是映射到气泡的大小上的。
当只有一个系列时,只需要一种气泡图只需要一种颜色即可。当有多个系列时,不同系列之间可以用颜色来区别。
5.单词云图
单词云图,主要是用于网络文本中词频数据的可视化,如关键词搜索,文章高频词,热点事件关键词等。
单词云图,是通过单词的字号大小来反映词频的大小,字号越大,词频越高。通常,为了达到贴合主体的特征,以及视觉美观的目的,用户可以自定义单词云的配色方案、背景形状等设计层面的个性化。
通过单词云图,用户可以快速找出网站搜索的高频词汇、了解文章的主旨、get到热点事件的关键信息。但是要注意一点,单次云图只适合表示一组文本数据的对比,不适合多个类别的文本数据之间的比较。
6.雷达图/星状图
当需要对比一个主体、或多个主体本身,在不同维度上的特征时,雷达图和星状图是不错的选择。
雷达图和星状图的区别是:
简单理解就是,雷达图可以视为是星状图中的一行记录。而且,一般情况下,会给予不同维度上的数值一定的权重,从而算出各个主体的综合得分,我们的芝麻信用分就是这么来的。
0x02 分布型数据可视化
数据的分布特征,是统计学中「描述性统计」模块研究的内容。要对数据的分布情况进行可视化呈现,首先需要了解数据的描述性度量(集中趋势、离散程度、偏态和峰度),通过这些反映数据分布特征的关键指标,才能确定能够使用哪些图表来进行可视化展示。
描述性统计的相关内容,可以参考这篇文章《统计学第1篇 描述性统计》。
1.直方图
我们常用的直方图,主要有「频数直方图」和「频率直方图」,它们都是用于展示离散型分组数据的分布情况。
绘制直方图,有如下几步:
若纵轴表示的是频数,则是「频数直方图」;若纵轴展示的是「频率」,则为「频率直方图」,如上图所示。
「频数分布直方图」中,频数乘以组距得出每个分组的数量,可以看出频数分布直方图是用面积来表示频数的,和柱状图(条形图)是用长方形的高度(宽度)表示数量是有本质性区别的。
2.茎叶图
茎叶图一般适合数据为整数的数据的可视化,就目前而言,我工作中用得比较少,简单讲下用法。
茎叶图的原理是,将一组数据按照数据位数进行比较,将数据中的高位数作为树茎,低位数作为树叶。假设有如下一组数据:
3,7,9,14,15,16,25,26,29,36,41,43,45,46,49
数据范围频数0-9310-19320-29330-39140-495
对应的树茎和树叶可以表示为:
树茎树叶03791456256936413569
图形化表示为:
3.箱线图
在描述性统计中,有涉及到分位数相关的知识,其中比较常用的是四分位数,即一组数据中的下四分位数Q1、中位数、上四分位数Q3,关于分位数的概念不清楚的同学可以自行查阅相关资料。
一组数据中的四分位数,加上这组数据的最大值、最小值,这5个特征值,就可以绘制一个箱线图。
箱线图释义:
箱线图常用的场景有如下几类:
(1)对比多组数据的分布情况。
(2)检测数据中的异常值或离群点。
4.概率密度图
若要描述连续型随机变量其分布规律,概率密度图是一种很直观表现形式。
在数学中,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数,简单理解就是,连续型随机变量取值某个确定数值的概率,即为纵切直线与概率密度函数交点的纵坐标的值。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分,也就是区间的上下限与概率密度曲线围成的面积。
通过图形化的方式,我们可以清楚的看到随机变量分布的对称性情况,以及随机变量取值是集中还是分散,这些可以通过偏态系数和峰度系数来度量,此处不深入阐释。
可参照上述气泡图描述部分,不重复赘述。
6.热力图
热力图,是通过密度函数进行可视化,用于表示地图中点的密度的热图。现阶段,热力图在地图、网页分析、业务数据分析等其他领域也有较为广泛的应用。
7.地图
当数据带有地理型信息属性时,首选的可视化图表为地图。按照展示的数据空间划分,地图可以分为二维平面地图和三维立体地图。
比如我们常用的导航软件、天气预报、降水量、台风移动路线等都和地理信息相挂钩,这些数据一般也是在地图上进行呈现,给人以直观的视觉体验。
0xFF 总结
无论是要对比数据,还是研究数据的分布情况,都需要根据数据的类型、数据的特征来确定可视化的最佳方式。
根据数据之间的关系、分析目的、数据特征,来选择和确定相应的图表类型,这个是可视化过程中需要牢牢把握的要点。图表的目的,是为了更直观、准确的呈现数据背后的信息和知识,不同数据关系应该选择什么图表都是有套路的可循的。
但是,如果只是为了使用某个觉得高大上的图表,而不管数据的特征是否适用,则是舍本逐末的做法,最终的可视化效果也必定是不理想的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28