
CDA数据分析师 出品
编译:Mika
我们不断在创造着大量的数据。据估计,仅在2020年我们就产生了惊人的59泽字节的数据。
随着如此多的信息四处传播,数据分析已经成为一个不可或缺的专业领域,这并不令人惊讶。
而这其中的一个关键部分就是数据可视化。
用图表表示数据,能够使我们发现新的见解,进行高层次的分析,并以清晰、简洁的方式传达我们的发现,同时这还是一种艺术形式。
在本文中,我们将列举出2021年度那些令人惊艳的可视化作品与你分享。
如前所述,人类在2020年创造了大约59泽字节的数据。要知道,人类在2010年代中期创造的数据才达到1泽字节,这是一个令人难以置信的数量。随着世界范围内数字化连接趋势越来于强,我们的数据生产速度只会更快。
1泽字节相当于六亿个字节,到底是个什么概念呢?不妨看看下图。
(来源:The Guardian / Cisco)
上述可视化无疑使我们更容易理解1泽字节到底有多么庞大,这就是数据可视化的力量。
随着我们产生的数据量不断增长,需要更复杂的可视化技术来理解它。一种越来越流行的数据形式是网络图,这让我们绘制许多不同点或节点之间的关系。对于描绘可视化中出现的连接或群体,网络图是非常不错的选择。
(来源: Kirill Benzi )
这个醒目的网络图不仅仅是一张漂亮的图片。它追踪了《星球大战》宇宙中的2万多个角色之间的联系。每个角色都由一个节点代表。
其中红色代表力量的黑暗面;蓝色代表光明面;黄色表示罪犯和赏金猎人。总共有超过66,000个连接,这恰恰显示了网络图可以有多么强大。
随着智能手机能追踪人们的行动,标记位置的数据正迅速成为一种普遍现象。这在新冠疫情期间被证明特别重要,因为各国争先恐后地跟踪和追查潜在的感染链。在这个例子中,数据可视化软件供应商Tectonix向我们展示了特定位置数据地图的潜力。
(来源:YouTube / Tectonix GEO )
这个可视化图显示了2020年春假期间在佛罗里达州收集的手机定位数据。每个手机信号都由一个红色节点代表。红色节点表示有很多人在享受春假。蓝色强调的区域是劳德代尔堡的一个海滩。
(来源:New York Times / Tectonix GEO )
通过追踪该海滩上的每个节点,Tectonix显示了春假结束时个人旅行的确切地点。因此,我们可以很容易地看到来自该海滩的个人可能已经传播新冠疫情的距离和范围。
虽然有些可视化使用3D元素来增加一点亮点,但最好的可视化是充分地利用三维空间。位于英国的数据分析公司Automatic Knowledge Ltd.的创始人Alasdair Rae在这一可视化过程中完美地说明了这一点。
(来源:Alisdair Rae / statsmapsnpix.com )
利用欧盟免费提供的GHS_POP数据,这些图片显示了整个欧洲的人口密度。该地图被分解成1公里×1公里的方块,条形高度代表了生活在每个地区的人口数量。除了提供引人注目的效果图外,我们还可以一目了然地看到哪里是人口最密集的地区。例如,巴黎、伦敦、马德里和罗马都脱颖而出。
如果没有与数据分析相关的主题,那么这篇文章是不完整的。
考虑到这一点,下面这个图表就通过气泡图和循环网络图显示了在CRAN上300个包中使用的流行编程语言。
(来源: Dr Torsten Sprenger / GitHub )
通过从TIOBE指数(衡量编程语言的流行程度)中获得的数据,这个可视化显示了哪些CRAN软件包是用哪些语言创建的。其中R排在首位,其次是C和C++。不太流行的语言用小圆圈表示。每个圆圈的大小与制作软件包所用的代码行数成正比。
好的数据可视化不需要太过华丽。
如果数据可能被用来帮助政府政策或决策,那么表述清晰是至关重要的。而折线图就是能清晰、简单地绘制时间序列数据的一个优秀工具。
(来源:UNEP GRID )
这张线图追踪了从1880年到2010年代末的全球表面温度。重要的是,它包括来自四个不同来源的数据。NASA、NOAA、日本气象局和MetOffice。通过叠加这四个来源的数据,不难注意到当中的密切相关性,它们均显示了在过去200年里全球表面温度在不断上升。
可视化不应该为了互动而互动。然而,互动性也可以改变我们看待数据的方式。Gov | DNA是一个获奖的在线互动网络工具,探讨了世界各国政府数据。
(来源:Werner Helmich )
该工具将每个国家表现为一个气泡,让你通过点击按钮来比较不同的国家。例如,你可以根据就业、预期寿命、新闻自由和腐败等变量追踪每个国家的世界幸福指数。
流图是一种面积图,通常用于比较时间序列数据。虽然并不总是适合进行深入分析,但它们非常适合提供广泛的概述。
(来源:Talia Bronshtein / insightfulinteraction.com )
由数据记者Talia Bronshtein创作的这幅美丽的流程图描绘了200多年(1820年至2015年)来美国不同移民的国籍。
从中,我们可以看到,在二战期间(1939-1945年),美国的移民几乎停止了。还可以看到,二战前的大多数移民来自奥匈帝国、意大利和俄罗斯等国;到21世纪末,大部分移民来自亚洲和南美国家。
数据可视化不仅仅是用于数据分析,可以是一种艺术形式。
2010年,艺术家Janet Echelman被委托创作一个图,代表西半球35个国家的相互联系。那一年,智利发生了大地震。这一事件的震级如此之大,以至于引发了一场巨大的海啸,使地球的一天缩短了1.26微秒。
(来源:NOAA / PMEL / Center for Tsunami Research )
这张图片显示了由美国国家海洋和大气管理局(NOAA)模拟的地震引起的海啸的热图。Janet Echelman以此为灵感创作了她的雕塑,她用不同颜色的绳子悬挂在一个轻巧的框架上。
(来源:Janet Echelman )
随后的雕塑名为1.26,这也证明了据分析可以和任何艺术领域一样具有创造性。
2021,知名大数据网站FiveThirtyEight用精美的数据可视化讲述了关于新冠疫情、政治局势和体育界的故事。
这里我们列举了当中一些非常惊艳的可视化作品分享给大家。
新冠
美国不愿意接种疫苗人群数据
大多数未接种疫苗的美国人认为疫苗的风险比感染新冠更大
白人孩子最不害怕新冠
政治
加州的罢免程序比大多数州都容易
通货膨胀率上升给美国总统的支持率带来影响
重新划分选区的最新情况
科学
美国大型城市引领可再生能源的发展
美国各地的高温,西部地区的火灾和干旱情况
15年调整平均值和记录的大西洋盆地飓风数据,1851-2019
东京奥运会
没有人能接近博尔特最佳时期的成绩
奥林匹克运动会竞赛项目年表1896-2020年
轮椅运动员在长跑中更能展现出优势
体育
世界象棋桂冠争夺赛
更快并不一定意味着更好
金州勇士队保持明星阵容
Matt Araiza的赛场罚球数据
LeBron James三分球数据
Patrick Mahomes 轻松投出长球
参考链接:
https://careerfoundry.com/en/blog/data-analytics/data-visualization-examples/
https://fivethirtyeight.com/features/our-51-best-and-weirdest-charts-of-2021/
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15