京公网安备 11010802034615号
经营许可证编号:京B2-20210330
有时候数字确实需要分享一个美丽的故事分享!
当今社会,数据可视化是至关重要的。没有强大的可视化,几乎不可能在堆积如山的数据中创造或者叙述它的故事。这些故事有助于我们构建策略,并做出明智的商业决策。
R是让数据可视化更加有趣和简单的很好支持。它已经具备了基本的功能,Package提供的外部支持使它成为一个令人开心的工作工具,感谢我们的社区成员。
在所有的包中,ggplot package已经在R中成为了数据可视化的同义词,它可以让你获得更多的控制图,图表和地图,也被称为能创造让人吃惊的图形。我要衷心的感谢Hadley Wickam, 这个成就ggplot2 package的父亲。
在这篇文章中,通过R用户用ggplot package工作中,我已经回答了的一些最常见的问题,所以,下一次当你需要可视化数据的时候,你可以选择下面的任何一个。
注:这篇文章最适合初学者,和中级的具有数据可视化的基本知识的R用户,您可以参考这个完整的数据可视化指南。

现在开始
让我们快速结束可视化热身仪式
数据集:在这篇文章中,我们使用了来自大市场预测的数据集。数据可供下载。

现在我们可以更好的开始了,对变量类进行检查。这将有助于你决定最适合他们制图的类型。
Q1如何创建散点图
使用类型:要看连续变量之间的关系时,使用散点图。

让我们快速了解ggplot的代码的结构:
1、 aes-指美学,它包含用于创建图的变量的名称。
2、 geom_point-ggplot提供了很多可以用来代表数据的geoms。因为,在这里我们用散点图,我们用gem_points.
3、 Scale_x_continuous-x 变量是连续的。这个参数是用来表示在x轴改变的信息。
4、 scale_y_continuous-它在Y轴执行与scale_x_continuous相同的任务。
5、 heme_bw –指设置情节的背景。我使用了网格版本。
我们还可以在当前的情节添加一个分类变量(item_type)。检查数据,以熟悉数据集中的可用数据。

我们甚至可以通过创建单独的item_type让分离散点图更好。

在结尾,你需要”缩放”这个图成为一个清晰的视图。放大的版本看起来像这个样子。在这种情况下,参数facet_wrap搞了鬼。它包括了矩形布局中的面。
Q2:如何创建直方图?
使用类型:当我们要绘制一个连续的变量,我们就使用直方图。

Q3:如何创建一个条形图?
使用类型:当我们要绘制一个分类变量或连续变量和分类变量组合时,就使用条形图。

你可以删除coord_flip()参数得到这个垂直条形图。正如你所看到的,我对这个图形尝试了不同的主题。欢迎你用ggplot package来做实验。

为了达到更好的视觉效果,你可以在末端放大这个图形。在这个图中,我分别在x和y轴使用了分类和连续变量。
Q4:如何创建栈条形图?
什么时候使用:它是一个高级版本的条形图。当我们希望可视化组合分类变量时使用。

Q5:如何创建一个箱线图?
使用类型:箱线图被用来绘制分类和连续变量的组合。此图有助于我们分辨数据分类并检测异常。
黑点是异常值。异常检测与排除是成功的数据挖掘的一个重要步骤。

Q6:如何创建一个区域图?
使用类型:区域图是用来显示一个变量或数据集的连续性。这是非常相似的线形图。它是常用的时间序列图。或者,它是用来绘制连续变量和分析的基本趋势。

Q7:如何创建一个热图?
使用类型:热图是用颜色的强度(密度)来显示两三个或多个变量在一个二维图像中的关系。

为了更好的视觉,你可以最后放大这个图表。黑暗的部分表示项目MRP接近50.较亮的部分表示项目的MRP是接近250。
热图也可以产生于图像识别的视觉效果。这可以通过添加一个参数作为插入来完成。

Q8:如何创建一个相关图?
使用类型: 相关图是用来测试数据集的可用变量间的关联程度。创建一个相关图,我们用corrgram package代替ggplot。我意识到用专业软件包创建相关图比ggplot容易多了。

这也很容易解释。颜色越深,变量间的相关性越高。蓝色表示正相关。红色表示负相关。颜色强度表示相关性的大小。
Q9:如何绘制地理地图?
使用类型:地图常被用来可视化某些影响地理位置的一些因素。在R中绘制很容易。
让我们绘制一个参加2016年的ICC世界杯T20的国家。经过研究,我发现今年有16个国家参加。让我们来看看这些国家在世界地图上的位置。
我们会用ggmaps package一起创建这些地图。


这很容易,是不是?我们还可以美化这个地图。如果你不熟悉世界地图,对你来说就很难找出这些国家的名字。让我们用ggmap package的功能设计这个地图。

这样看起来就更好。ggmap package 是与谷歌地图连接的,因此提取详细的地段直接连接。但是我有一个遗憾。如果你仔细看这幅地图,你会发现这个地图是不完整的。西印度群岛没有在这个地图上显示。我试着从多个源中提取数据,但是并没有成功。如果你们中的任何一个能解决这个谜题,请分享你的解决方案吧。
Q10:如何绘制单个命令中的数据集?
我们每个人都在试图在某个时候做到这一步。我们都在寻找一个命令,使用这个命令让我们可以将所有的变量的数据集一次性画出来。这是你的答案。
你可以使用tabplot package 来完成这个伟业。

结尾注释:
我们终于结束一个丰富多彩的旅程!我希望它能让人们开始几次新的丰富多彩的旅程。你可以已经注意到用ggplot 2会容易很多。大多数的代码是重复的,因此你会很快适应它。当你用geoms制作图表的时候要小心,因为这是最主要的设计元素。当我们开始学习这个包时,我问了在不同的节点的所有问题。因此,一篇关于所有问题的文章出现在我的脑海里。
在这篇文章中,我讨论了9种不同的可以用ggplot package绘制的可视化。这些可视化是否能很好的使用取决于提供给它们的变量类型。因此,如果你想画出来,必须要小心变量的类型。
你觉得这篇文章很有帮助吗?你能否用其他的软件包来制作可视化?快快回复公众号分享你的建议或者意见。
来源 | 36大数据
责任编辑 | 李佳燕
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08 很多数据分析师每天与Excel打交道,但当被问到“什么是表格结构数据”“它和表结构数据有什么区别”“表格结构数据有哪些核 ...
2026-05-08在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-05-07在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27