京公网安备 11010802034615号
经营许可证编号:京B2-20210330
箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分析、市场调研等领域的 “基础分析工具”。而 JMP 作为专业的统计分析软件,不仅能快速绘制标准箱线图,更通过 “统计集成 + 动态交互” 功能,让箱线图从 “静态展示” 升级为 “可探索、可验证的分析载体”—— 无需切换工具,即可完成 “分布可视化→异常值定位→组间比较→统计检验” 的全流程分析。本文将系统讲解 JMP 绘制箱线图的实操方法、特色功能与实战应用,帮助分析师最大化挖掘数据分布价值。
在使用 JMP 绘制箱线图前,需先明确箱线图的核心组成与统计含义 —— 这是后续解读结果的基础;同时理解 JMP 相比 Excel、Python 等工具的独特优势,才能充分发挥其价值。
箱线图通过 “箱体 + 须 + 异常值” 的组合,浓缩展示数据分布的关键信息,标准结构包含 5 个核心统计量(以 “销售额数据” 为例):
箱体:代表数据的 “中间 50%”(四分位距 IQR=Q3-Q1),箱体长度越短,数据越集中;
箱体下沿(Q1):第 25 百分位数,25% 的数据小于该值;
箱体上沿(Q3):第 75 百分位数,75% 的数据小于该值;
箱体中线(Median):第 50 百分位数(中位数),数据分布的中心位置,比均值更抗异常值影响;
须(Whiskers):代表数据的 “合理范围”,JMP 默认按 “1.5×IQR 规则” 计算:
下须:max(最小值,Q1-1.5×IQR);
上须:min(最大值,Q3+1.5×IQR);
异常值(Outliers):超出 “须” 范围的数据点,JMP 中用 “圆点” 标记,需重点分析(如是否为数据错误或特殊事件)。
例如:某产品的销售额箱线图中,中位数为 50 万元,Q1=30 万、Q3=70 万(IQR=40 万),下须 = 30-1.5×40= -30(取最小值 10 万),上须 = 70+1.5×40=130 万,超出 130 万的销售额即为异常值(可能是大订单或数据录入错误)。
相比 Excel(需手动计算四分位数)、Python(需代码调试样式),JMP 在箱线图绘制与分析上的优势尤为明显:
统计自动化:自动计算中位数、四分位数、异常值,无需手动处理,支持直接导出统计报告;
分组灵活:支持多维度分组(如 “区域 + 月份” 双分组),快速对比不同类别数据的分布差异;
以 “某连锁超市各门店月度销售额数据” 为例(数据包含 “门店编号、区域、月份、销售额”4 个字段),详解 JMP 绘制基础箱线图的步骤,适用于 “单变量分布展示” 或 “单维度分组比较” 场景。
JMP 对数据格式的核心要求是 “结构化数据”,即 “每一行是一个观测值,每一列是一个变量”,避免 “宽格式数据”(如多列均为销售额,列名是门店编号)。
| 门店编号 | 区域 | 月份 | 销售额(万元) |
|---|---|---|---|
| 001 | 华东 | 1 | 45 |
| 001 | 华东 | 2 | 52 |
| 002 | 华北 | 1 | 38 |
| 003 | 华南 | 1 | 60 |
打开 JMP,点击菜单栏 “文件”→“打开”,选择 Excel/Csv 格式的数据文件;
若数据为 “宽格式”,需先通过 “表格”→“堆叠列” 转换为长格式(例如:将 “门店 001 销售额、门店 002 销售额” 列堆叠为 “门店编号、销售额” 两列)。
JMP 提供 “图形生成器”(灵活绘图)与 “分析→分布”(统计分析)两种路径,分别适用于不同需求:
适合需要 “调整图表样式、添加辅助元素” 的场景,步骤如下:
点击菜单栏 “图形”→“图形生成器”,打开图形生成器窗口;
将 “销售额(万元)” 字段拖到 “Y 轴”(纵轴,代表要分析的数值变量);
将 “区域” 字段拖到 “X 轴”(横轴,代表分组变量,若无需分组则不拖);
在右侧 “元素” 面板中,点击 “箱线图”(默认是 “箱线图 + 须 + 异常值” 组合,可选择 “仅箱线图”“箱线图 + 均值点” 等变体);
(可选)自定义样式:
双击箱体,在 “填充颜色” 中选择 “按区域着色”(不同区域用不同颜色,便于区分);
双击 Y 轴,设置 “轴范围”(如销售额 0-100 万元),避免自动缩放导致的视觉偏差;
点击 “添加”→“参考线”,添加 “总体均值线”(红色虚线),便于对比各组与总体的差异;
适合需要 “自动生成统计报告、进行异常值检验” 的场景,步骤如下:
点击菜单栏 “分析”→“分布”,打开分布窗口;
将 “销售额(万元)” 字段拖到 “Y,列”(数值变量);
将 “区域” 字段拖到 “By”(分组变量,按区域分组展示分布);
点击 “确定”,JMP 会自动生成:
JMP 的核心价值在于 “箱线图不仅是画图工具,更是分析入口”,以下 5 个特色功能能大幅提升分析效率,是其他工具难以替代的关键:
JMP 箱线图的 “交互性” 是核心优势,无需额外操作即可追溯异常值来源:
查看异常值详情:双击箱线图中的异常值(圆点),JMP 会自动在数据表格中 “高亮选中” 对应的原始数据行,显示该异常值的 “门店编号、月份、销售额” 等完整信息;
筛选异常值子集:右键异常值→“选择匹配行”,可筛选出所有异常值数据,单独保存为新表格,便于后续分析(如判断异常值是 “大订单” 还是 “数据错误”);
示例:某异常值销售额为 150 万元,双击后发现对应门店是 “华东 005 店”,月份为 “12 月(双 12 大促)”,说明该异常值是合理的业务峰值,无需剔除。
当需要按 “多个维度” 分组(如 “区域 + 月份”)时,JMP 可快速实现多层级对比:
用 “图形生成器” 绘制箱线图,将 “销售额” 拖到 Y 轴;
将 “区域” 拖到 X 轴,将 “月份” 拖到右侧 “分组” 面板(或直接拖到 X 轴,与 “区域” 形成嵌套分组);
JMP 会生成 “按区域分栏、按月份分组” 的箱线图,每个区域下展示 12 个月的销售额分布;
默认箱线图仅显示中位数,JMP 可添加 “均值点、置信区间” 等统计标记,丰富分析维度:
添加均值点:右键箱线图→“添加”→“均值点”,JMP 会在箱体内添加 “红色圆点” 标记均值,对比 “中位数与均值” 的差异(若均值 > 中位数,说明数据右偏;反之左偏);
添加置信区间:右键箱线图→“添加”→“置信区间”,选择 “均值的 95% 置信区间”,JMP 会在均值点周围添加 “误差线”,展示均值的统计可靠性(误差线越短,均值估计越稳定);
示例:华南区域销售额的 “中位数 = 55 万,均值 = 62 万”,且均值置信区间较窄,说明该区域销售额右偏(存在少量高值订单),且均值估计可靠。
箱线图可直观展示组间差异,但 “差异是否显著” 需统计检验支撑,JMP 可直接联动 “方差分析(ANOVA)”:
结果解读:若 P 值 <0.05(显著性水平),说明 “不同组间的差异显著”;若 P 值 > 0.05,说明差异可能是随机波动;
示例:区域间销售额的 ANOVA 报告显示 P 值 = 0.02<0.05,说明 “华东、华北、华南区域的销售额差异显著”,并非随机偶然。
JMP 支持将箱线图与统计报告导出为 “可编辑格式”,便于报告撰写与复用:
导出图表:右键箱线图→“保存图形”,可导出为 “PNG、EMF、PDF” 等格式,其中 EMF 格式支持在 Word 中编辑(如调整颜色、字体);
导出统计报告:点击 “分析→分布” 窗口的 “红色三角”→“保存报表”,可将 “箱线图 + 统计表格 + 正态性检验” 打包导出为 “JMP 报表文件” 或 “Excel 文件”,支持他人打开后直接查看完整分析结果;
复用模板:若需定期绘制相同格式的箱线图(如每月销售分析),可将当前箱线图保存为 “图形模板”,后续导入新数据后直接应用模板,无需重复调整样式。
以 “某连锁超市 2024 年各门店月度销售额数据” 为例,完整演示 JMP 箱线图的分析流程,解决 “区域间销售额是否存在差异”“异常值是否合理”“哪些区域表现更稳定” 三个核心问题。
分析华东、华北、华南三个区域的销售额分布差异,为 2025 年区域营销策略制定提供数据支撑。
数据包含 “门店编号(30 个门店)、区域(华东 10 家、华北 10 家、华南 10 家)、月份(1-12 月)、销售额(万元)”,共 360 条观测值,数据格式为 JMP 兼容的长格式。
点击 “分析”→“分布”,将 “销售额” 拖到 “Y,列”,“区域” 拖到 “By”;
点击 “确定”,生成三个区域的箱线图与统计报告。
从箱线图中初步观察:
中位数差异:华东区域销售额中位数(58 万)> 华南(52 万)> 华北(45 万),华东区域整体表现最优;
离散程度:华北区域箱体最短(IQR=15 万),华东区域箱体最长(IQR=25 万),说明华北区域销售额更稳定,华东区域波动更大;
双击华东区域的异常值,高亮对应原始数据:发现均为 “12 月双 12 大促” 期间的门店数据,且销售额最高的门店是 “华东 008 店”(线上线下联动销售),属于合理业务峰值;
结论:异常值无需剔除,需在报告中注明 “华东区域 12 月大促对销售额的显著提升作用”。
在 “分布” 窗口点击 “红色三角”→“比较均值”→“单因子 ANOVA”;
方差分析报告显示:F 值 = 8.62,P 值 = 0.0003<0.05,说明 “三个区域的销售额差异显著”,并非随机波动。
华东区域销售额最高但波动大,需优化大促期间的库存管理;
华北区域销售额稳定但偏低,需加强营销策略;
华南区域表现中等,可借鉴华东的大促经验提升业绩。
在实际操作中,易因数据格式、参数设置不当导致箱线图异常,以下为高频问题及解决方法:
原因:JMP 将 “区域”“月份” 识别为 “数值变量”(如月份存储为 1、2、3...),而非 “分类变量”;
解决方案:
原因:JMP 默认按 “1.5×IQR” 计算须的范围,若数据离散程度极大(如存在超高峰值),可能导致须覆盖极端值,未标记为异常值;
解决方案:
右键箱线图→“箱线图选项”→“须长度”,将 “1.5×IQR” 改为 “1.0×IQR”(缩小须的范围,让更多极端值显示为异常值);
或在 “分析→分布” 窗口查看 “统计报告” 中的 “最小值、最大值”,手动判断是否存在需关注的极端值。
原因:分组维度过多(如 “区域 + 月份 + 门店类型”),导致 X 轴标签重叠、箱体过窄;
解决方案:
用 “分栏” 替代 “嵌套分组”:将 “区域” 拖到 “分栏” 面板,每个区域生成独立子图,X 轴仅显示 “月份”,避免标签拥挤;
调整图表尺寸:右键图表→“调整大小”,增大宽度,让箱体有足够显示空间;
筛选关键维度:若无需分析所有维度,可先通过 “行筛选器” 筛选核心维度(如仅分析 “旺季 3 个月”),简化图表。
原因:导出时未设置 “高分辨率”,或字体格式未适配;
解决方案:
导出时选择 “PDF 格式”(矢量图,放大后不失真),而非 PNG(位图,放大后模糊);
导出前双击图表中的 “轴标签、标题”,将字体改为 “宋体、12 号”,确保与报告字体一致;
若需插入 Word,选择 “EMF 格式”,可在 Word 中进一步调整字体与大小。
JMP 绘制箱线图的优势,不在于 “画图速度”,而在于 “将可视化与统计分析深度集成”—— 让分析师无需在 “画图工具” 与 “统计软件” 之间切换,即可完成从 “数据分布展示” 到 “异常值分析”“组间检验”“结论导出” 的全流程工作。
对于数据分析师而言,JMP 箱线图的核心价值体现在三个层面:
效率提升:自动计算统计量、支持交互定位,减少手动处理时间;
分析深度:联动方差分析、正态性检验,让 “直观差异” 转化为 “统计显著结论”;
报告标准化:可导出高质量图表与完整统计报告,满足业务汇报需求。
最终,JMP 箱线图的目标不是 “画一张漂亮的图”,而是 “帮助分析师从数据分布中挖掘业务洞察”—— 无论是发现区域销售差异、定位异常订单,还是验证营销策略效果,都能以数据为支撑,做出更科学的决策。

数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21