京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据:分类型数据可视化方法研究报告
数据可视化可以将海量数据通过图形、表格等形式直观反映给大众。降低数据读取门槛,可以让企业通过形象化方式对自身产品进行营销。
一、数据可视化原理
数据化可视原理是综合运用计算机图形学、图像、人机交互等技术,将采集或模拟的数据映射为可识别的图形、图像、视频或者动画,并允许用户对数据进行交互分析的理论方法和技术。
数据可视化可以将不可见的现象转换为可见的图形符号,并从中发现规律从而获取知识。在实际应用中,它可以针对复杂和大规模的数据,还原增强数据中的全局结构和具体细节。
二、 可视化方法
1. 数据采集:数据是可视化对象,可以通过仪器采样,调查记录、模拟计算等方式采集。在可视化解决方案中,了解数据来源采集方法和数据属性,才能有的放矢解决问题。
2. 数据处理和变换:原始数据含有噪音和误差同时数据模式和特征往往被隐藏。通过去噪、数据清洗、提取特征等变换为用户可理解模式。
3. 可视化映射(核心):将数据的数值、空间坐标、不同位置数据间的联系等映射为可视化视觉通道的不同元素如标记、位置、形状、大小和颜色等。最终让用户通过可视化洞察数据和数据背后隐含的现象和规律。
4. 用户感知:用户感知从数据可视化结果中提取信息、知识和灵感。数据可视化可用于从数据中探索新的假设,也可严重相关假设与数据是否吻合,还可帮助专家向公众展示数据中的信息。
用户感知可以在任何时期反作用于数据的采集、处理变换以及映射过程中,如下图所示:
三、具体操作
1. 将指标值图形化
一个指标值就是一个数据,将数据的大小以图形的方式表现。比如用柱形图的长度或高度表现数据大小,这也是最常用的可视化形式。
传统的柱形图、饼图有可能会带来审美疲劳,可尝试从图形的视觉样式上进行一些创新,常用的方法就是将图形与指标的含义关联起来。
比如 Google Zeitgeist 在展现 top10 的搜索词时,展示的就是“搜索”形状的柱形,图形与指标的含义相吻合,同时也做了立体的视觉变化:
2. 将指标图形化
一般用在与指标含义相近的 icon 来表现,使用场景也比较多,如下:
3. 将指标关系图形化
当存在多个指标时,为了挖掘指标之间的关系并将其进行图形化表达,可提升图表的可视化深度。常见有以下两种方式:
借助已有的场景来表现
联想自然或社会中有无场景与指标关系类似,然后借助此场景来表现。
比如百度统计流量研究院操作系统的分布(上图),首先分为 windows、mac 还有其他操作系统, windows 又包含 xp、2003、7等多种子系统。
宇宙星系中也有类似的关系: 宇宙中有很多星系,我们最为熟悉的是太阳系,太阳系中又包括各个行星。根据这种关系联想,图表整体借用宇宙星系的场景,将熟知的Windows比喻成太阳系,将XP、Window7等系统比喻成太阳系中的行星,将Mac和其他系统比喻成其他星系。
构建场景来表现
指标之间往往具有一些关联特征,如从简单到复杂、从低级到高级、从前到后等等。如无法找到已存在的对应场景,也可构建场景。
比如百度统计流量研究院中的学历分布:指标分别是小学、初中、高中、本科等等。
各个类目之间是一种阶梯式的关系,因此,平台就设计了一个阶梯式的图直观的反映出了数据呈阶梯式递进的趋势。
再比如:支付宝年初出的个人年度账单中,在描述付款最多的三项时设计了一个类似颁奖台的样式也很出彩:(然而并没有觉得我在哪个类目买买买付款最多有什么骄傲的)
下方图示为供参考的线性化过程,实际可视化思考中,将哪类元素进行图形化或者图形化前后的顺序可能均有不同,需根据具体情况处理。
4. 将时间和空间可视化
时间
通过时间的维度来查看指标值的变化情况,一般通过增加时间轴的形式,也就是常见的趋势图。
空间
当图表存在地域信息并且需要突出表现的时候,可用地图将空间可视化,地图作为主背景呈现所有信息点。
Google Zeitgeist 在 2010 和 2012 年的年度热门回顾中,都是以地图为主要载体(同时也结合了时间),来呈现热门事件:
5. 将数据进行概念转换
先看下生活中的概念转换,当我们需要喝水时,通常会说给我来杯水而不是给我来500ml 的水。要注意来(一)杯水,是具象的,并不是用量化的数据来形容。在这里,500ml就是一个具体的数据,但是它难以被感知,所以用(一)杯的概念来转换。
同样在数据可视化,有时需要对数据进行概念转换。这是为了加深用户对数据的感知,常用方法有对比和比喻。感知就是一个将数据由抽象转化为具象的过程。
对比
比如下图就是一个介绍中国烟民数量的图表。如果只看左半部分中国烟民的数量:32000000(个十百千万十万百万千万亿…)好吧数据量级很大,不论是数零还是数逗号都很容易数错,而且具体这个数字有多大仍然很难感知。让我们目光向右移动,来看右半部分:中国烟民数量超过了美国人口总和,太恐怖了。这样一对比,对数据的感知就加深了。
比喻
下图是一个介绍雅虎邮箱处理数据量大小的图表,大概就是说它每小时处理的电子邮件有近1.2TB,相当于644245094 张打印的纸。
上面这个翻译很无聊是不是,但这并不是问题的重点,这个数它到底有多大呢? 文案中用了一个比喻的手法:大意就是将这些邮件打印出来首尾相连可以绕地球4圈。嗯,比香飘飘奶瓶还多3圈。到这里,我相信大家肯定能初步感受到雅虎邮箱每天处理的数据量有多大了吧,而且还没有被打印出来,为地球节省了很多纸(假装环保)。
6.让图表“动”起来
数据图形化完成后,可结合实际情况,将其变为动态化和可操控性的图表,用户在操控过程中能更好地感知数据的变化过程,提升体验。
实现动态化通常以下两种方式: 交互和动画。
交互
交互包括鼠标浮动、点击、多图表时的联动响应等等。下面是百度统计流量研究院的时间分布图,该分布图采用左图右表的联动形式,左图中鼠标浮动则显示对应数据,点击则可以切换选择:
动画
动画包括入场动画、交互过程的动画和播放动画等等。
入场动画:即在页面载入后,给图表一个“生长”的过程,取代“数据载入中”这样的提示文字。
交互动画:用户发生交互行为后,通过动画形式给以及时反馈。
播放动画:通俗的来说就是提供播放功能,让用户能够完整看到数据随时间变化的过程。下图是 Gapminder 在描述多维数据时,提供随时间播放的功能,可以直观感受到所有数据的变化。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在中介效应分析(或路径分析)中,间接效应是衡量“自变量通过中介变量影响因变量”这一间接路径强度与方向的核心指标。不同于直 ...
2025-12-30数据透视表是数据分析中高效汇总、多维度分析数据的核心工具,能快速将杂乱数据转化为结构化的汇总报表。在实际分析场景中,我们 ...
2025-12-30在金融投资、商业运营、用户增长等数据密集型领域,量化策略凭借“数据驱动、逻辑可验证、执行标准化”的优势,成为企业提升决策 ...
2025-12-30CDA(Certified Data Analyst),是在数字经济大背景和人工智能时代趋势下,源自中国,走向世界,面向全行业的专业技能认证,旨 ...
2025-12-29在数据分析领域,周期性是时间序列数据的重要特征之一——它指数据在一定时间间隔内重复出现的规律,广泛存在于经济、金融、气象 ...
2025-12-29数据分析师的核心价值在于将海量数据转化为可落地的商业洞察,而高效的工具则是实现这一价值的关键载体。从数据采集、清洗整理, ...
2025-12-29在金融、零售、互联网等数据密集型行业,量化策略已成为企业提升决策效率、挖掘商业价值的核心工具。CDA(Certified Data Analys ...
2025-12-29CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-26在数字化转型浪潮下,审计行业正经历从“传统手工审计”向“大数据智能审计”的深刻变革。教育部发布的《大数据与审计专业教学标 ...
2025-12-26统计学作为数学的重要分支,是连接数据与决策的桥梁。随着数据规模的爆炸式增长和复杂问题的涌现,传统统计方法已难以应对高维、 ...
2025-12-26数字化浪潮席卷全球,数据已成为企业核心生产要素,“用数据说话、用数据决策”成为企业生存与发展的核心逻辑。在这一背景下,CD ...
2025-12-26箱线图(Box Plot)作为数据分布可视化的核心工具,凭借简洁的结构直观呈现数据的中位数、四分位数、异常值等关键信息,广泛应用 ...
2025-12-25在数据驱动决策的时代,基于历史数据进行精准预测已成为企业核心需求——无论是预测未来销售额、客户流失概率,还是产品需求趋势 ...
2025-12-25在数据驱动业务的实践中,CDA(Certified Data Analyst)数据分析师的核心工作,本质上是通过“指标”这一数据语言,解读业务现 ...
2025-12-25在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24在企业数字化转型的深水区,数据已成为核心生产要素,而“让数据可用、好用”则是挖掘数据价值的前提。对CDA(Certified Data An ...
2025-12-24数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23