京公网安备 11010802034615号
经营许可证编号:京B2-20210330
箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分析、市场调研等领域的 “基础分析工具”。而 JMP 作为专业的统计分析软件,不仅能快速绘制标准箱线图,更通过 “统计集成 + 动态交互” 功能,让箱线图从 “静态展示” 升级为 “可探索、可验证的分析载体”—— 无需切换工具,即可完成 “分布可视化→异常值定位→组间比较→统计检验” 的全流程分析。本文将系统讲解 JMP 绘制箱线图的实操方法、特色功能与实战应用,帮助分析师最大化挖掘数据分布价值。
在使用 JMP 绘制箱线图前,需先明确箱线图的核心组成与统计含义 —— 这是后续解读结果的基础;同时理解 JMP 相比 Excel、Python 等工具的独特优势,才能充分发挥其价值。
箱线图通过 “箱体 + 须 + 异常值” 的组合,浓缩展示数据分布的关键信息,标准结构包含 5 个核心统计量(以 “销售额数据” 为例):
箱体:代表数据的 “中间 50%”(四分位距 IQR=Q3-Q1),箱体长度越短,数据越集中;
箱体下沿(Q1):第 25 百分位数,25% 的数据小于该值;
箱体上沿(Q3):第 75 百分位数,75% 的数据小于该值;
箱体中线(Median):第 50 百分位数(中位数),数据分布的中心位置,比均值更抗异常值影响;
须(Whiskers):代表数据的 “合理范围”,JMP 默认按 “1.5×IQR 规则” 计算:
下须:max(最小值,Q1-1.5×IQR);
上须:min(最大值,Q3+1.5×IQR);
异常值(Outliers):超出 “须” 范围的数据点,JMP 中用 “圆点” 标记,需重点分析(如是否为数据错误或特殊事件)。
例如:某产品的销售额箱线图中,中位数为 50 万元,Q1=30 万、Q3=70 万(IQR=40 万),下须 = 30-1.5×40= -30(取最小值 10 万),上须 = 70+1.5×40=130 万,超出 130 万的销售额即为异常值(可能是大订单或数据录入错误)。
相比 Excel(需手动计算四分位数)、Python(需代码调试样式),JMP 在箱线图绘制与分析上的优势尤为明显:
统计自动化:自动计算中位数、四分位数、异常值,无需手动处理,支持直接导出统计报告;
分组灵活:支持多维度分组(如 “区域 + 月份” 双分组),快速对比不同类别数据的分布差异;
以 “某连锁超市各门店月度销售额数据” 为例(数据包含 “门店编号、区域、月份、销售额”4 个字段),详解 JMP 绘制基础箱线图的步骤,适用于 “单变量分布展示” 或 “单维度分组比较” 场景。
JMP 对数据格式的核心要求是 “结构化数据”,即 “每一行是一个观测值,每一列是一个变量”,避免 “宽格式数据”(如多列均为销售额,列名是门店编号)。
| 门店编号 | 区域 | 月份 | 销售额(万元) |
|---|---|---|---|
| 001 | 华东 | 1 | 45 |
| 001 | 华东 | 2 | 52 |
| 002 | 华北 | 1 | 38 |
| 003 | 华南 | 1 | 60 |
打开 JMP,点击菜单栏 “文件”→“打开”,选择 Excel/Csv 格式的数据文件;
若数据为 “宽格式”,需先通过 “表格”→“堆叠列” 转换为长格式(例如:将 “门店 001 销售额、门店 002 销售额” 列堆叠为 “门店编号、销售额” 两列)。
JMP 提供 “图形生成器”(灵活绘图)与 “分析→分布”(统计分析)两种路径,分别适用于不同需求:
适合需要 “调整图表样式、添加辅助元素” 的场景,步骤如下:
点击菜单栏 “图形”→“图形生成器”,打开图形生成器窗口;
将 “销售额(万元)” 字段拖到 “Y 轴”(纵轴,代表要分析的数值变量);
将 “区域” 字段拖到 “X 轴”(横轴,代表分组变量,若无需分组则不拖);
在右侧 “元素” 面板中,点击 “箱线图”(默认是 “箱线图 + 须 + 异常值” 组合,可选择 “仅箱线图”“箱线图 + 均值点” 等变体);
(可选)自定义样式:
双击箱体,在 “填充颜色” 中选择 “按区域着色”(不同区域用不同颜色,便于区分);
双击 Y 轴,设置 “轴范围”(如销售额 0-100 万元),避免自动缩放导致的视觉偏差;
点击 “添加”→“参考线”,添加 “总体均值线”(红色虚线),便于对比各组与总体的差异;
适合需要 “自动生成统计报告、进行异常值检验” 的场景,步骤如下:
点击菜单栏 “分析”→“分布”,打开分布窗口;
将 “销售额(万元)” 字段拖到 “Y,列”(数值变量);
将 “区域” 字段拖到 “By”(分组变量,按区域分组展示分布);
点击 “确定”,JMP 会自动生成:
JMP 的核心价值在于 “箱线图不仅是画图工具,更是分析入口”,以下 5 个特色功能能大幅提升分析效率,是其他工具难以替代的关键:
JMP 箱线图的 “交互性” 是核心优势,无需额外操作即可追溯异常值来源:
查看异常值详情:双击箱线图中的异常值(圆点),JMP 会自动在数据表格中 “高亮选中” 对应的原始数据行,显示该异常值的 “门店编号、月份、销售额” 等完整信息;
筛选异常值子集:右键异常值→“选择匹配行”,可筛选出所有异常值数据,单独保存为新表格,便于后续分析(如判断异常值是 “大订单” 还是 “数据错误”);
示例:某异常值销售额为 150 万元,双击后发现对应门店是 “华东 005 店”,月份为 “12 月(双 12 大促)”,说明该异常值是合理的业务峰值,无需剔除。
当需要按 “多个维度” 分组(如 “区域 + 月份”)时,JMP 可快速实现多层级对比:
用 “图形生成器” 绘制箱线图,将 “销售额” 拖到 Y 轴;
将 “区域” 拖到 X 轴,将 “月份” 拖到右侧 “分组” 面板(或直接拖到 X 轴,与 “区域” 形成嵌套分组);
JMP 会生成 “按区域分栏、按月份分组” 的箱线图,每个区域下展示 12 个月的销售额分布;
默认箱线图仅显示中位数,JMP 可添加 “均值点、置信区间” 等统计标记,丰富分析维度:
添加均值点:右键箱线图→“添加”→“均值点”,JMP 会在箱体内添加 “红色圆点” 标记均值,对比 “中位数与均值” 的差异(若均值 > 中位数,说明数据右偏;反之左偏);
添加置信区间:右键箱线图→“添加”→“置信区间”,选择 “均值的 95% 置信区间”,JMP 会在均值点周围添加 “误差线”,展示均值的统计可靠性(误差线越短,均值估计越稳定);
示例:华南区域销售额的 “中位数 = 55 万,均值 = 62 万”,且均值置信区间较窄,说明该区域销售额右偏(存在少量高值订单),且均值估计可靠。
箱线图可直观展示组间差异,但 “差异是否显著” 需统计检验支撑,JMP 可直接联动 “方差分析(ANOVA)”:
结果解读:若 P 值 <0.05(显著性水平),说明 “不同组间的差异显著”;若 P 值 > 0.05,说明差异可能是随机波动;
示例:区域间销售额的 ANOVA 报告显示 P 值 = 0.02<0.05,说明 “华东、华北、华南区域的销售额差异显著”,并非随机偶然。
JMP 支持将箱线图与统计报告导出为 “可编辑格式”,便于报告撰写与复用:
导出图表:右键箱线图→“保存图形”,可导出为 “PNG、EMF、PDF” 等格式,其中 EMF 格式支持在 Word 中编辑(如调整颜色、字体);
导出统计报告:点击 “分析→分布” 窗口的 “红色三角”→“保存报表”,可将 “箱线图 + 统计表格 + 正态性检验” 打包导出为 “JMP 报表文件” 或 “Excel 文件”,支持他人打开后直接查看完整分析结果;
复用模板:若需定期绘制相同格式的箱线图(如每月销售分析),可将当前箱线图保存为 “图形模板”,后续导入新数据后直接应用模板,无需重复调整样式。
以 “某连锁超市 2024 年各门店月度销售额数据” 为例,完整演示 JMP 箱线图的分析流程,解决 “区域间销售额是否存在差异”“异常值是否合理”“哪些区域表现更稳定” 三个核心问题。
分析华东、华北、华南三个区域的销售额分布差异,为 2025 年区域营销策略制定提供数据支撑。
数据包含 “门店编号(30 个门店)、区域(华东 10 家、华北 10 家、华南 10 家)、月份(1-12 月)、销售额(万元)”,共 360 条观测值,数据格式为 JMP 兼容的长格式。
点击 “分析”→“分布”,将 “销售额” 拖到 “Y,列”,“区域” 拖到 “By”;
点击 “确定”,生成三个区域的箱线图与统计报告。
从箱线图中初步观察:
中位数差异:华东区域销售额中位数(58 万)> 华南(52 万)> 华北(45 万),华东区域整体表现最优;
离散程度:华北区域箱体最短(IQR=15 万),华东区域箱体最长(IQR=25 万),说明华北区域销售额更稳定,华东区域波动更大;
双击华东区域的异常值,高亮对应原始数据:发现均为 “12 月双 12 大促” 期间的门店数据,且销售额最高的门店是 “华东 008 店”(线上线下联动销售),属于合理业务峰值;
结论:异常值无需剔除,需在报告中注明 “华东区域 12 月大促对销售额的显著提升作用”。
在 “分布” 窗口点击 “红色三角”→“比较均值”→“单因子 ANOVA”;
方差分析报告显示:F 值 = 8.62,P 值 = 0.0003<0.05,说明 “三个区域的销售额差异显著”,并非随机波动。
华东区域销售额最高但波动大,需优化大促期间的库存管理;
华北区域销售额稳定但偏低,需加强营销策略;
华南区域表现中等,可借鉴华东的大促经验提升业绩。
在实际操作中,易因数据格式、参数设置不当导致箱线图异常,以下为高频问题及解决方法:
原因:JMP 将 “区域”“月份” 识别为 “数值变量”(如月份存储为 1、2、3...),而非 “分类变量”;
解决方案:
原因:JMP 默认按 “1.5×IQR” 计算须的范围,若数据离散程度极大(如存在超高峰值),可能导致须覆盖极端值,未标记为异常值;
解决方案:
右键箱线图→“箱线图选项”→“须长度”,将 “1.5×IQR” 改为 “1.0×IQR”(缩小须的范围,让更多极端值显示为异常值);
或在 “分析→分布” 窗口查看 “统计报告” 中的 “最小值、最大值”,手动判断是否存在需关注的极端值。
原因:分组维度过多(如 “区域 + 月份 + 门店类型”),导致 X 轴标签重叠、箱体过窄;
解决方案:
用 “分栏” 替代 “嵌套分组”:将 “区域” 拖到 “分栏” 面板,每个区域生成独立子图,X 轴仅显示 “月份”,避免标签拥挤;
调整图表尺寸:右键图表→“调整大小”,增大宽度,让箱体有足够显示空间;
筛选关键维度:若无需分析所有维度,可先通过 “行筛选器” 筛选核心维度(如仅分析 “旺季 3 个月”),简化图表。
原因:导出时未设置 “高分辨率”,或字体格式未适配;
解决方案:
导出时选择 “PDF 格式”(矢量图,放大后不失真),而非 PNG(位图,放大后模糊);
导出前双击图表中的 “轴标签、标题”,将字体改为 “宋体、12 号”,确保与报告字体一致;
若需插入 Word,选择 “EMF 格式”,可在 Word 中进一步调整字体与大小。
JMP 绘制箱线图的优势,不在于 “画图速度”,而在于 “将可视化与统计分析深度集成”—— 让分析师无需在 “画图工具” 与 “统计软件” 之间切换,即可完成从 “数据分布展示” 到 “异常值分析”“组间检验”“结论导出” 的全流程工作。
对于数据分析师而言,JMP 箱线图的核心价值体现在三个层面:
效率提升:自动计算统计量、支持交互定位,减少手动处理时间;
分析深度:联动方差分析、正态性检验,让 “直观差异” 转化为 “统计显著结论”;
报告标准化:可导出高质量图表与完整统计报告,满足业务汇报需求。
最终,JMP 箱线图的目标不是 “画一张漂亮的图”,而是 “帮助分析师从数据分布中挖掘业务洞察”—— 无论是发现区域销售差异、定位异常订单,还是验证营销策略效果,都能以数据为支撑,做出更科学的决策。

数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01