京公网安备 11010802034615号
经营许可证编号:京B2-20210330
基本描述数据汇总的图形显示
除了在大部分统计或图形数据表示软件包中使用的条形图、饼图和线图之外,还有一些常用的图用于显示数据汇总和分布,包括直方图、分位数图、q-q图、散布图和局部回归(loess)曲线。对于数据的直观观察,这些图是非常有帮助的。
画直方图(或频率直方图)是一种概括给定属性分布的图形方法。属性A的直方图将A的数据分布划分成不相交的子集或桶。通常,每个桶的宽度是一致的。每个桶用一个矩形表示,其高度等于桶中的值计数或相对频率。如果A是分类的,如车型或商品类型,则对A的每个已知值画一个矩形,而结果图更多地称作条形图。如果A是数值的,更多地使用术语直方图。对于数值属性,构造直方图的划分规则在2.5.4节讨论。例如,在等宽的直方图中,每个桶代表数值属性A的等宽值域。
表2-1 AllElectronics的一个分店销售的商品单价数据集
图2-4显示表2-1中数据的直方图,其中,桶定义成等宽的,代表增量20美元,而频率是商品的销售数量。直方图至少有一个世纪了,是一种广泛使用的单变量图形方法。然而,对于比较单变量观测组,它可能不如分位数图、q-q图和盒图方法有效。
图2-4 表2-1中数据集的直方图
分位数图(quantile plot)是一种观察单变量数据分布的简单有效方法。首先,它显示给定属性的所有数据(允许用户评估总的情况和不寻常的出现)。其次,它绘出了分位数信息。
这一步使用的机制与2.2.2节讨论的百分位数计算稍微有点不同。设xi (i = 1, ., N)是按递增序排序的数据,使得x1是最小的观测值,而xN是最大的。每个观测值xi与一个百分数fi配对,指出大约100fi%的数据小于或等于xi。我们说“大约”,因为可能没有一个精确的小数值fi,使得数据的fi%小于或等于xi。注意,0.25分位数对应于四分位数Q1,0.50分位数对应于中位数,而0.75分位数对应于Q3。令
这些数由1/2N(稍大于0)到1-1/2N(稍小于1),以相同的步长1/N递增。在分位数图中,xi 对着fi画出。这使得我们可以基于分位数比较不同的分布。例如,给定两个不同时间段销售数据的分位数图,我们一眼就可以比较它们的Q1,中位数,Q3,以及其他fi值。图2-5显示了表2-1单价数据的分位数图。
图2-5 表2-1单价数据的分位数图
分位数-分位数图或q-q图对着另一个对应的分位数,绘制一个单变量分布的分位数。它是一种强有力的可视化工具,使得用户可以观察从一个分布到另一个是否有移位。
假定对于变量单价有两个观测集,取自两个不同的分店。设x1, ., xN是取自第一个分店的数据,y1, ., yM是取自第二个分店的数据,每组数据都按递增序排序。如果M = N(即每个集合中的点数相等),则我们简单地对着xi画yi,其中yi和xi都是各自数据集的第(i-0.5) / N个分位数。如果M < N(即第二个分店的观测值比第一个少),则可能只有M个点在q-q图中。这里,yi是y数据的第(i-0.5) / M个分位数,对着x数据的第(i-0.5) / M个分位数画。在典型情况下,该计算涉及插值。
图2-6显示在给定的时间段,AllElectronics的两个不同分店销售的商品单价数据的分位数分位数图。每个点对应于每个数据集的相同的分位数,并显示分店1与分店2相对的销售商品单价。例如,左下角的最低点对应于分位数0.03。(为帮助比较,我们也画了一条直线,代表对于给定的分位数,两个分店的单价相同的情况。此外,加黑的点分别对应于Q1、中位数和Q3。)我们看到,在分位数0.03,分店1销售的商品单价比分店2稍低。换言之,在分店1销售
的商品3%低于或等于40美元,而在分店2销售的商品3%低于或等于42美元。在最高分位数,我们看到分店2的商品单价稍微低于分店1。一般地,我们注意到分店1的分布相对于分店2有一个移位,分店1销售的商品单价趋向于比分店2低。
散布图(scatter plot)是确定两个数值属性之间看上去是否有联系、模式或趋势的最有效的图形方法之一。为构造散布图,每个值对视为一个代数坐标对,并作为一个点画在平面上。图2-7 显示表2-1中数据集的散布图。散布图是一种观察双变量数据有用的方法,用于观察点的簇和离群点,或考察相关联系的可能性。在图2-8中,我们看到两个不同数据集中两个属性之间的正相关和负相关的例子。图2-9显示了三种情况,每个数据集的两个属性之间都不存在相关联系。
图2-6 两个不同分店的单价数据的分位数-分位数图
图2-7 表2-1中数据的散布图
图2-8 散布图可以用来发现属性之间的a)正相关或b)负相关
图2-9 三种情况,其中每个数据集中两个属性之间都不存在观察到的相关
图2-10 表2-1中数据集的loess曲线
在处理多个属性时,散布图矩阵(scatter-plot matrix)是散布图的一种有用的扩充。给定n个属性,散布图矩阵是散布图的n×n栅格,提供每个属性(或维)与每个其他属性的可视化表示。随着所研究的属性数量增加,散布图的有效性降低。在这种情况下,用必要进行诸如放大(zooming)和摇动(panning)等用户交互操作,帮助有效地解释单个散布图。
loess曲线是另一种重要的图形探查工具,它添加一条光滑曲线到散布图,以便更好地理解依赖模式。loess一词是“局部回归”(local regression)的缩写。图2-10显示表2-1中数据集的loess曲线。
为了拟合loess曲线,需要设置两个参数—光滑参数α,被回归拟合的多项式的次数λ。α可以是正数(典型值在1/4~1之间),而λ可以是1或2。选择α的目的是产生一个拟合,它尽59 ~可能光滑,而不过分破坏数据中潜在的模式。曲线随α增大而变得更光滑。然而,可能出现拟60 合不足,表明可能“丢失”数据模式。如果α太小,跟踪了潜在的模式,但可能过分拟合数据,曲线中的局部“摆动”可能不被数据支持。如果数据的潜在模式具有“温和的”曲率,而没有局部极大和极小,则局部线性拟合通常就足够了(λ = 1)。然而,如果存在局部极大和极小,则二次拟合(λ = 2)一般做得更好,它遵循数据模式并且保持局部光滑性。
总而言之,描述性数据汇总提供了数据总体行为的有价值的洞察。通过帮助识别噪声和离群点,它们对于数据清理特别有用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-10在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-10在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01