京公网安备 11010802034615号
经营许可证编号:京B2-20210330
来源 | 镝次元数据新闻
译 | 宋宇
编者按:
可视化有许多“规则”。有的是实际的规则,有的则是帮助你做出选择的建议。如果是出于数据的要求,而且你也知道该怎么做,那么许多实际的规则也不必遵守。
但是,的确有一些规则不应该违背。这些规则通常是用于一些特定种类、几乎只能用特定方式阅读的图表。当这些规则被打破,阅读过程中,数据有可能被误读。这会有点棘手。
条形图的基线必须从零开始
条形图依赖长度来呈现数据。短的条块代表较低的值,长一些的则表示较高的值。条形图的原理就是通过比较条块的长度来比较值的大小。
当基线被改变了,视觉效果也就扭曲了。

举例来说,请看上图。左边第一幅条形图比较了两个值:50和100,它有一条并且它有一条以零为起点的基线。很好。代表数值100的条块长度正好是数值50的两倍长,为100正好也是50的两倍大小。
但当你把基线变为一个更高的、非零的值时,第一个条形的长度变短了,而另外一个条形的长度却没有变。此时值为100的条形不再是值为50的条形的两倍长。以此类推,当最后左边代表数值50的条形彻底消失了,意味着100无限地大于50了。
条形图的基线必须从零开始。
例:这张条形图是经福克斯新闻准许使用的。

3月31日目标的值为7,066,000,比6,000,000高17.8%,然而第二个条形几乎是第一个条形长度的三倍。
有人也许会反驳说,这张图的重点在于两个值的差而非这两个值本身。即便如此,用条形图来表示本身就是一个错误的选择。使用时间序列来呈现月累积数也许会更好。
不要过分热衷于饼图
有些人认为,应该完全避免饼图。他们也许是对的,也许又不是。有些人也许会说,使用饼图完全是一种不可原谅的错误。对此,我不同意。不管怎样,事实情况是人们仍然使用饼图,所以我们至少可以争取正确地使用它们。
避免过度切割饼图,否则最终对它的阅读将难以为继。
那么多少是“太多”?这是一个判断力的问题。不过,如果已经很难从图中看出其中一块扇形是另一块两倍大,或者好几个较小的扇形区域看起来差不多大时,在扇形切割上面就该收手了。此时可以考虑把较小的类目归入一个更大的:“其他”。圆环图也是一样。
同时也考虑一下用其他种类的图表来表示比例。
不要太依赖于饼图。
例:这张饼图来自维基百科,它展示了国家的不同区域。

左边这张饼图中已经切割了许多块,但旁边另分离出一张饼图,显示了左图中看不清楚的更小国家的情况,以此来提供更多的信息。有许多方式可以展示这组数据,比如树状图、按照数据比例制作的图标,或者就用普通的地图。单薄的饼图只适用于显示只有几组值的数据。
尊重部分所占整体的比例
相较于呈现数值,有些图更着重于表现部分与整体的关系,它们表现的数据是部分所占整体比例。比如,堆积式条形图,堆积区域图,树状图,马赛克图,圆环图以及饼图。在这些图表中,每一个部分都表示一个独立的、不重叠的比例。

关于这一条,最常见的错误发生在调查问题允许多选时。比如说:“你上周使用了哪一种交通工具?可以多选。”这样的话,在人们多选的问题上就会出现比例的重叠,不同选项的百分比之和大于一。为了避免这种情况,你不能直接把比例做成统计图。
例:这张饼图来自福克斯新闻下属机构,它表现了三个不属于同一个整体的百分比。

每一个值都是一个单独的整体,因此在这一例中,用三个堆积式条块(或普通的条块)会更直观地表现每个值的比例。
展示数据
让读者看到数据,这是可视化的重点。如果数据的呈现不够清晰,就违背了做图表的初衷。这常常是因为一张图里的数据太多,于是读者的兴趣就被分散了。

这是一个经典的“绘图过度”的问题,相关的研究有很多。但是对于基本的图表,也有一些简单的解决方式。
首先是可以改变符号的大小,这样上图中的小圆点(或者是其他的符号)就不会占据太多空间。为了让数据直观清晰,主要要增加空白。
调节透明度,多层次的图案就不会被覆盖。
通过取样或者把对数据进行分类的方式,把总体分成几个更小的子群。从中,你可以采取小而多的方式,这样每张表里的信息就会少一些。
数据进行再统计及分门别类。
总而言之,更好地呈现数据。
例:这张图展示了金州勇士队在2008-09赛季的每个投篮。

这张图最终形成了一个球场的形状,并得出了对于球员们投篮最多的地点的一个小结论——近框,中距离,以及三分球。但是它们之间的差距是很小的,读者并不能看清真正量级上的差距。
数据聚合法将有助于解决此类问题。
解释编码
通过一定的形状、颜色和几何图形的结合,将数据呈现出来。为了让读者能读清楚,图表设计者就要把这些图形解码回数据值。经典的例子是没有标注的坐标轴。

有时编码不需要解释。比如说,读者也许知道怎样读条形图,就不必解释条的长度表示的是值的大小了。但是设计者的确应该解释数据,也就是图表的单位和主题。
所以标明坐标轴代表的含义。要给读者提供线索或图例,解释图表。
例:这个错误标注的图表来自温尼伯太阳报:
我们要是能知道这是统计关于什么的问题就好了。
大功告成
搞定了。最后一件事就是确保你没有违反最基础的可视化规则——这都是关于理解数据转换可视化图形的过程。如果能弄明白怎数据是如何转换成几何图形的,你就可以创作自己的可视化作品了。但对于特定的几种只能用特定方式来读取的图表,是没有什么改变的余地的。
总之,一定要学会把数据转换成可视化图形。然后真正理解可视化制图中“规则”和“建议”的不同之处。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22