京公网安备 11010802034615号
经营许可证编号:京B2-20210330
用数据讲述最好的故事:如何做出赏心悦目的数据可视化
当设计地图时,我会想:我想让观看者如何阅读地图上的信息?我想让他们一目了然地看出地理区域的测量结果变化吗?我想要显示出特定地区的多样性吗?或者我想要标明某个区域内的高频率活动或者相对的体积/密度?
有多种方法可以在地图中快速而集中的呈现出可视化数据。我常用的几个是:
·Dot density (点密度图)——使用点或其他符号展示特征或现象的集体情况(密度)的地图样式。例如,显示区域内的交集或高/低活动量。
·Choropleth (分级统计图)——这是一种主题地图样式,它根据地图上显示的数据强度,对应的展现在阴影颜色或图案纹理上。例如,显示人口密度或人均收入。
· Hexagonal binning / hexbin (六边形图)——这种地图的风格适合显示地理上的一般主题。在choropleth地图中,它的颗粒比 dot density密度小,不受边界约束。
· Heatmap (热度图)——这种地图使看地图的人能够在缩放因子中独立地感知点密度。也是最不受约束的,因为它不符合地理范围。
举例
当对点数据进行可视化时,点密度图是有效的,通常用于展现活动,特征和其他地理现象中的体积或模式。单个数据点不应该被计算在内,而是显示一个区域的情况和密度。简单但有效,可以快速给你的地图带来展现力。
Eurovision Shazam - 优雅的点密度图
分级统计图基于先前定义区域的统计数据。典型的例子是由选举区域划分的选举地图; 在这里,分级统计图是首选。一般来说,分级统计图代表两种类型的数据:空间的广泛度,比如人口,以及空间的密集,比如比例,密度和比例。
DirectRelief - 分级统计图表示的乌干达的疟疾发病率
对聚合数据进行可视化时,六边形图擅于用更含蓄但更结构化的形式来展现。例如,表示一般分布情况时,不是渲染出数万个点的散点图,而可以将点数填充为几百个六边形。
热点图本质上使用颜色作为数据可视化工具。该应用可以很好的处理多个变量,并可以在数据中显示类似的模式和相关性。
纽约市交通事故热点图 - 混合热点图与六边形图
设计中的考虑
点密度图依赖聚类方法,因此分割数据时必须确定适当的值。我通常使用Jenks优化方法来计算和组合最佳值,从而切换颜色或比例。在点密度图中,具有较多点的区域表示高浓度值,具有较少点的区域表示较低浓度值。我会使用范围,不透明度或颜色对这些变化进行可视化。
在设计分级统计图,六边形图以及热度图时,需要记住重要的两点:
1)较暗的颜色数值更高;
2)虽然有数以百万计种不同颜色,但是人眼只能轻易区分有限的颜色。因此一般来说,我只使用五到七种颜色类别。
有好几种制图时可选择的不同类型颜色种类。以下是我最喜欢的几个:
· 单色系列:颜色由所选颜色的暗色渐变到相同色调的浅色或白色。最暗的颜色代表数据集中最大的数字,最浅的色调代表最小的数字。
单色渐变
· 双极渐变:通常使用两个相反的色调来显示从负到中心到正的值变化。这些类型的地图显示了彼此相关值的大小。
双极渐变
· 部分光谱色调渐变:用于混合映射两组不同数据。这种技术融合了相邻的两种对手色调,并显示了混合数据类别的大小。
部分光谱色调渐变
对于色彩浓重的地图风格,我总会考虑最终成品的可行性。会是纯数字的还是可以打印或复印?颜色和混合是否面对色盲的问题?颜色可以大大增强制图者与看图者之间的交流,但失败的配色可能导致图既不有效也不吸引人。记住,往往越简洁越好!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23