京公网安备 11010802034615号
经营许可证编号:京B2-20210330
箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分析、市场调研等领域的 “基础分析工具”。而 JMP 作为专业的统计分析软件,不仅能快速绘制标准箱线图,更通过 “统计集成 + 动态交互” 功能,让箱线图从 “静态展示” 升级为 “可探索、可验证的分析载体”—— 无需切换工具,即可完成 “分布可视化→异常值定位→组间比较→统计检验” 的全流程分析。本文将系统讲解 JMP 绘制箱线图的实操方法、特色功能与实战应用,帮助分析师最大化挖掘数据分布价值。
在使用 JMP 绘制箱线图前,需先明确箱线图的核心组成与统计含义 —— 这是后续解读结果的基础;同时理解 JMP 相比 Excel、Python 等工具的独特优势,才能充分发挥其价值。
箱线图通过 “箱体 + 须 + 异常值” 的组合,浓缩展示数据分布的关键信息,标准结构包含 5 个核心统计量(以 “销售额数据” 为例):
箱体:代表数据的 “中间 50%”(四分位距 IQR=Q3-Q1),箱体长度越短,数据越集中;
箱体下沿(Q1):第 25 百分位数,25% 的数据小于该值;
箱体上沿(Q3):第 75 百分位数,75% 的数据小于该值;
箱体中线(Median):第 50 百分位数(中位数),数据分布的中心位置,比均值更抗异常值影响;
须(Whiskers):代表数据的 “合理范围”,JMP 默认按 “1.5×IQR 规则” 计算:
下须:max(最小值,Q1-1.5×IQR);
上须:min(最大值,Q3+1.5×IQR);
异常值(Outliers):超出 “须” 范围的数据点,JMP 中用 “圆点” 标记,需重点分析(如是否为数据错误或特殊事件)。
例如:某产品的销售额箱线图中,中位数为 50 万元,Q1=30 万、Q3=70 万(IQR=40 万),下须 = 30-1.5×40= -30(取最小值 10 万),上须 = 70+1.5×40=130 万,超出 130 万的销售额即为异常值(可能是大订单或数据录入错误)。
相比 Excel(需手动计算四分位数)、Python(需代码调试样式),JMP 在箱线图绘制与分析上的优势尤为明显:
统计自动化:自动计算中位数、四分位数、异常值,无需手动处理,支持直接导出统计报告;
分组灵活:支持多维度分组(如 “区域 + 月份” 双分组),快速对比不同类别数据的分布差异;
以 “某连锁超市各门店月度销售额数据” 为例(数据包含 “门店编号、区域、月份、销售额”4 个字段),详解 JMP 绘制基础箱线图的步骤,适用于 “单变量分布展示” 或 “单维度分组比较” 场景。
JMP 对数据格式的核心要求是 “结构化数据”,即 “每一行是一个观测值,每一列是一个变量”,避免 “宽格式数据”(如多列均为销售额,列名是门店编号)。
| 门店编号 | 区域 | 月份 | 销售额(万元) |
|---|---|---|---|
| 001 | 华东 | 1 | 45 |
| 001 | 华东 | 2 | 52 |
| 002 | 华北 | 1 | 38 |
| 003 | 华南 | 1 | 60 |
打开 JMP,点击菜单栏 “文件”→“打开”,选择 Excel/Csv 格式的数据文件;
若数据为 “宽格式”,需先通过 “表格”→“堆叠列” 转换为长格式(例如:将 “门店 001 销售额、门店 002 销售额” 列堆叠为 “门店编号、销售额” 两列)。
JMP 提供 “图形生成器”(灵活绘图)与 “分析→分布”(统计分析)两种路径,分别适用于不同需求:
适合需要 “调整图表样式、添加辅助元素” 的场景,步骤如下:
点击菜单栏 “图形”→“图形生成器”,打开图形生成器窗口;
将 “销售额(万元)” 字段拖到 “Y 轴”(纵轴,代表要分析的数值变量);
将 “区域” 字段拖到 “X 轴”(横轴,代表分组变量,若无需分组则不拖);
在右侧 “元素” 面板中,点击 “箱线图”(默认是 “箱线图 + 须 + 异常值” 组合,可选择 “仅箱线图”“箱线图 + 均值点” 等变体);
(可选)自定义样式:
双击箱体,在 “填充颜色” 中选择 “按区域着色”(不同区域用不同颜色,便于区分);
双击 Y 轴,设置 “轴范围”(如销售额 0-100 万元),避免自动缩放导致的视觉偏差;
点击 “添加”→“参考线”,添加 “总体均值线”(红色虚线),便于对比各组与总体的差异;
适合需要 “自动生成统计报告、进行异常值检验” 的场景,步骤如下:
点击菜单栏 “分析”→“分布”,打开分布窗口;
将 “销售额(万元)” 字段拖到 “Y,列”(数值变量);
将 “区域” 字段拖到 “By”(分组变量,按区域分组展示分布);
点击 “确定”,JMP 会自动生成:
JMP 的核心价值在于 “箱线图不仅是画图工具,更是分析入口”,以下 5 个特色功能能大幅提升分析效率,是其他工具难以替代的关键:
JMP 箱线图的 “交互性” 是核心优势,无需额外操作即可追溯异常值来源:
查看异常值详情:双击箱线图中的异常值(圆点),JMP 会自动在数据表格中 “高亮选中” 对应的原始数据行,显示该异常值的 “门店编号、月份、销售额” 等完整信息;
筛选异常值子集:右键异常值→“选择匹配行”,可筛选出所有异常值数据,单独保存为新表格,便于后续分析(如判断异常值是 “大订单” 还是 “数据错误”);
示例:某异常值销售额为 150 万元,双击后发现对应门店是 “华东 005 店”,月份为 “12 月(双 12 大促)”,说明该异常值是合理的业务峰值,无需剔除。
当需要按 “多个维度” 分组(如 “区域 + 月份”)时,JMP 可快速实现多层级对比:
用 “图形生成器” 绘制箱线图,将 “销售额” 拖到 Y 轴;
将 “区域” 拖到 X 轴,将 “月份” 拖到右侧 “分组” 面板(或直接拖到 X 轴,与 “区域” 形成嵌套分组);
JMP 会生成 “按区域分栏、按月份分组” 的箱线图,每个区域下展示 12 个月的销售额分布;
默认箱线图仅显示中位数,JMP 可添加 “均值点、置信区间” 等统计标记,丰富分析维度:
添加均值点:右键箱线图→“添加”→“均值点”,JMP 会在箱体内添加 “红色圆点” 标记均值,对比 “中位数与均值” 的差异(若均值 > 中位数,说明数据右偏;反之左偏);
添加置信区间:右键箱线图→“添加”→“置信区间”,选择 “均值的 95% 置信区间”,JMP 会在均值点周围添加 “误差线”,展示均值的统计可靠性(误差线越短,均值估计越稳定);
示例:华南区域销售额的 “中位数 = 55 万,均值 = 62 万”,且均值置信区间较窄,说明该区域销售额右偏(存在少量高值订单),且均值估计可靠。
箱线图可直观展示组间差异,但 “差异是否显著” 需统计检验支撑,JMP 可直接联动 “方差分析(ANOVA)”:
结果解读:若 P 值 <0.05(显著性水平),说明 “不同组间的差异显著”;若 P 值 > 0.05,说明差异可能是随机波动;
示例:区域间销售额的 ANOVA 报告显示 P 值 = 0.02<0.05,说明 “华东、华北、华南区域的销售额差异显著”,并非随机偶然。
JMP 支持将箱线图与统计报告导出为 “可编辑格式”,便于报告撰写与复用:
导出图表:右键箱线图→“保存图形”,可导出为 “PNG、EMF、PDF” 等格式,其中 EMF 格式支持在 Word 中编辑(如调整颜色、字体);
导出统计报告:点击 “分析→分布” 窗口的 “红色三角”→“保存报表”,可将 “箱线图 + 统计表格 + 正态性检验” 打包导出为 “JMP 报表文件” 或 “Excel 文件”,支持他人打开后直接查看完整分析结果;
复用模板:若需定期绘制相同格式的箱线图(如每月销售分析),可将当前箱线图保存为 “图形模板”,后续导入新数据后直接应用模板,无需重复调整样式。
以 “某连锁超市 2024 年各门店月度销售额数据” 为例,完整演示 JMP 箱线图的分析流程,解决 “区域间销售额是否存在差异”“异常值是否合理”“哪些区域表现更稳定” 三个核心问题。
分析华东、华北、华南三个区域的销售额分布差异,为 2025 年区域营销策略制定提供数据支撑。
数据包含 “门店编号(30 个门店)、区域(华东 10 家、华北 10 家、华南 10 家)、月份(1-12 月)、销售额(万元)”,共 360 条观测值,数据格式为 JMP 兼容的长格式。
点击 “分析”→“分布”,将 “销售额” 拖到 “Y,列”,“区域” 拖到 “By”;
点击 “确定”,生成三个区域的箱线图与统计报告。
从箱线图中初步观察:
中位数差异:华东区域销售额中位数(58 万)> 华南(52 万)> 华北(45 万),华东区域整体表现最优;
离散程度:华北区域箱体最短(IQR=15 万),华东区域箱体最长(IQR=25 万),说明华北区域销售额更稳定,华东区域波动更大;
双击华东区域的异常值,高亮对应原始数据:发现均为 “12 月双 12 大促” 期间的门店数据,且销售额最高的门店是 “华东 008 店”(线上线下联动销售),属于合理业务峰值;
结论:异常值无需剔除,需在报告中注明 “华东区域 12 月大促对销售额的显著提升作用”。
在 “分布” 窗口点击 “红色三角”→“比较均值”→“单因子 ANOVA”;
方差分析报告显示:F 值 = 8.62,P 值 = 0.0003<0.05,说明 “三个区域的销售额差异显著”,并非随机波动。
华东区域销售额最高但波动大,需优化大促期间的库存管理;
华北区域销售额稳定但偏低,需加强营销策略;
华南区域表现中等,可借鉴华东的大促经验提升业绩。
在实际操作中,易因数据格式、参数设置不当导致箱线图异常,以下为高频问题及解决方法:
原因:JMP 将 “区域”“月份” 识别为 “数值变量”(如月份存储为 1、2、3...),而非 “分类变量”;
解决方案:
原因:JMP 默认按 “1.5×IQR” 计算须的范围,若数据离散程度极大(如存在超高峰值),可能导致须覆盖极端值,未标记为异常值;
解决方案:
右键箱线图→“箱线图选项”→“须长度”,将 “1.5×IQR” 改为 “1.0×IQR”(缩小须的范围,让更多极端值显示为异常值);
或在 “分析→分布” 窗口查看 “统计报告” 中的 “最小值、最大值”,手动判断是否存在需关注的极端值。
原因:分组维度过多(如 “区域 + 月份 + 门店类型”),导致 X 轴标签重叠、箱体过窄;
解决方案:
用 “分栏” 替代 “嵌套分组”:将 “区域” 拖到 “分栏” 面板,每个区域生成独立子图,X 轴仅显示 “月份”,避免标签拥挤;
调整图表尺寸:右键图表→“调整大小”,增大宽度,让箱体有足够显示空间;
筛选关键维度:若无需分析所有维度,可先通过 “行筛选器” 筛选核心维度(如仅分析 “旺季 3 个月”),简化图表。
原因:导出时未设置 “高分辨率”,或字体格式未适配;
解决方案:
导出时选择 “PDF 格式”(矢量图,放大后不失真),而非 PNG(位图,放大后模糊);
导出前双击图表中的 “轴标签、标题”,将字体改为 “宋体、12 号”,确保与报告字体一致;
若需插入 Word,选择 “EMF 格式”,可在 Word 中进一步调整字体与大小。
JMP 绘制箱线图的优势,不在于 “画图速度”,而在于 “将可视化与统计分析深度集成”—— 让分析师无需在 “画图工具” 与 “统计软件” 之间切换,即可完成从 “数据分布展示” 到 “异常值分析”“组间检验”“结论导出” 的全流程工作。
对于数据分析师而言,JMP 箱线图的核心价值体现在三个层面:
效率提升:自动计算统计量、支持交互定位,减少手动处理时间;
分析深度:联动方差分析、正态性检验,让 “直观差异” 转化为 “统计显著结论”;
报告标准化:可导出高质量图表与完整统计报告,满足业务汇报需求。
最终,JMP 箱线图的目标不是 “画一张漂亮的图”,而是 “帮助分析师从数据分布中挖掘业务洞察”—— 无论是发现区域销售差异、定位异常订单,还是验证营销策略效果,都能以数据为支撑,做出更科学的决策。

在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20