热线电话：13121318867

首页大数据时代【CDA干货】Excel 导入数据含缺失值？详解 dropna 函数的功能与实战应用

【CDA干货】Excel 导入数据含缺失值？详解 dropna 函数的功能与实战应用

2025-09-16

Excel 导入数据含缺失值？详解 dropna 函数的功能与实战应用

在用 Python（如 pandas 库）处理 Excel 数据时，“缺失值” 是高频痛点 ——Excel 表中的空白单元格、“N/A” 标记或格式错误，导入后常会转化为 pandas 中的NaN（Not a Number）值。这些缺失值若不处理，会导致统计分析偏差（如均值计算不准）、模型训练报错（如机器学习算法无法识别NaN）。而dropna作为 pandas 中删除缺失值的核心函数，是解决这一问题的关键工具。本文将从 Excel 数据缺失场景出发，全面解析dropna的作用、参数配置与实战用法，帮助读者高效完成数据清洗。

一、先搞懂：Excel 导入数据的缺失值从哪来？有什么危害？

在用dropna处理缺失值前，需先明确 Excel 数据缺失的根源与影响，避免 “盲目删除” 导致数据浪费。

1. Excel 数据缺失的 3 类常见来源

Excel 作为手动录入、多表合并的常用工具，缺失值的产生往往与操作场景相关：

手工录入遗漏：如员工信息表中，部分员工的 “入职日期”“联系方式” 因录入疏忽未填写，形成空白单元格；
数据格式不兼容：Excel 表中混合文本与数值格式（如 “年龄” 列既有数字 “25”，又有文本 “待补充”），导入 pandas 时文本内容会被识别为NaN；
多表合并残留：将 Excel 表 “销售数据” 与 “客户信息” 合并时，部分客户无匹配的销售记录，导致 “销售额”“订单号” 列出现NaN；
系统导出缺陷：从业务系统导出 Excel 数据时，因字段未配置或接口异常，部分列（如 “物流单号”）自动填充为空白。

2. 缺失值不处理的 4 大危害

若直接用含缺失值的 Excel 数据做分析，会引发一系列问题：

统计结果失真：计算 “平均销售额” 时，NaN值会被自动排除，若缺失值占比高（如 30%），会导致均值偏离真实水平；
可视化错误：用含NaN的 “月度销量” 列绘制折线图时，会出现断点或空白区域，无法完整呈现趋势；
模型训练失败：机器学习算法（如线性回归、决策树）大多不支持NaN输入，直接训练会报错；
业务决策偏差：如用户画像分析中，“消费频次” 列的缺失值若被误判为 “0 次”，会导致低价值用户群体误判。

二、dropna 的核心作用：精准删除 “含缺失值的行 / 列”，净化数据

dropna是 pandas 库中专门用于 “删除含NaN值的行或列” 的函数，其核心作用可概括为：通过灵活配置参数，选择性剔除数据集中 “无效的行 / 列”，保留完整、可用的数据样本，为后续分析（如统计计算、建模）扫清障碍。

简单来说，当 Excel 导入的数据表存在 “某行多个字段缺失”“某列全是空白” 时，dropna能帮你快速筛选出 “无缺失的有效数据”—— 例如，删除 “销售额” 列缺失的行，避免这些无效数据影响 “月度销售总额” 的计算。

关键提醒：dropna 不是 “唯一选择”，但却是 “高效选择”

处理缺失值的方法还有 “填充法”（如用均值、中位数填充，fillna函数），但dropna的优势在于：

当缺失值占比低（如 < 5%）且无规律时，删除含缺失值的行 / 列对整体数据影响小，操作更简单；
当缺失值对应的是 “无效样本”（如 Excel 表中 “订单号” 缺失的行，无实际业务意义），删除是最合理的选择，避免填充导致的虚假数据。

三、dropna 的参数拆解：3 个核心参数，控制 “删什么、怎么删”

dropna的灵活性体现在参数配置上 —— 通过调整axis（方向）、how（删除条件）、subset（指定列）等参数，可精准控制删除范围，避免误删有用数据。以下是 Excel 数据处理中最常用的 4 个参数：

参数名	取值范围	核心作用	Excel 数据场景示例
`axis`	0（默认）/1	0 = 删除含缺失值的行；1 = 删除含缺失值的列	若 Excel “用户表” 中部分行的 “手机号” 缺失→用`axis=0`删行；某列 “备注” 全是空白→用`axis=1`删列
`how`	'any'（默认）/'all'	'any'= 行 / 列只要有一个缺失值就删除；'all'= 行 / 列所有值都缺失才删除	若 Excel “订单表” 中某行 “订单号” 缺失（其他字段完整）→'any' 会删除该行；某行全空白→'all' 才删除
`subset`	列表（如 [' 列 1',' 列 2']）	仅针对指定列的缺失值判断是否删除行（仅对`axis=0`生效）	仅关注 Excel “销售表” 中 “销售额”“订单日期” 列的缺失值→`subset=['销售额','订单日期']`，其他列缺失不影响
`thresh`	整数（如 3）	行 / 列至少有 N 个非缺失值才保留，否则删除（与`how`互补）	Excel “产品表” 需保留 “产品 ID、名称、价格”3 个核心列无缺失的行→`thresh=3`

四、实战：用 dropna 处理 Excel 导入数据的 5 类典型场景

结合 Excel 数据的常见缺失情况，以下用 pandas 代码演示dropna的实战应用，从 “导入 Excel” 到 “删除缺失值” 形成完整流程。

前提准备：导入工具与数据

首先需安装 pandas 和读取 Excel 的依赖库（openpyxl用于读取.xlsx 格式，xlrd用于.xls 格式）：

pip install pandas openpyxl xlrd

假设我们有一份 Excel 文件sales_data.xlsx，包含 “订单号、客户 ID、销售额、订单日期、物流单号”5 列，导入后的数据如下（含缺失值）：

订单号	客户 ID	销售额	订单日期	物流单号
1001	C001	500.0	2024-01-01	SF123
1002	NaN	800.0	2024-01-02	NaN
1003	C003	NaN	2024-01-03	ZT456
1004	NaN	NaN	NaN	NaN
1005	C005	1200.0	2024-01-05	NaN

场景 1：删除 “任何一列有缺失” 的行（默认用法）

需求：Excel 数据中，只要 “订单号、客户 ID、销售额” 等任意一列有缺失，就删除该行（确保每行数据完整）。

代码：

import pandas as pd

# 1. 导入Excel数据（指定sheet，读取.xlsx需用engine='openpyxl'）

df = pd.read_excel("sales_data.xlsx", sheet_name="Sheet1", engine="openpyxl")

# 2. 查看导入后的缺失值情况

print("导入后的数据缺失值统计：")

print(df.isnull().sum())  # 输出每列缺失值数量：客户ID=2，销售额=1，物流单号=3，订单日期=1

# 3. 用dropna默认参数删除含缺失值的行（axis=0, how='any'）

df_clean1 = df.dropna()

# 4. 查看清洗后的数据

print("n删除任何一列有缺失的行后：")

print(df_clean1)

# 结果：仅保留1001行（无任何缺失值），其他4行因含缺失值被删除

场景 2：仅删除 “所有列都缺失” 的行（保留部分有效数据）

需求：Excel 数据中，仅当某行所有列（如 1004 行 “订单号、客户 ID” 全为NaN）都缺失时才删除，部分缺失的行（如 1002 行 “客户 ID、物流单号” 缺失）保留。

代码：

# 用how='all'删除全缺失的行

df_clean2 = df.dropna(how="all")

print("仅删除全缺失的行后：")

print(df_clean2)

# 结果：删除1004行（全缺失），保留1001、1002、1003、1005行（部分缺失）

场景 3：仅针对 “核心列” 删除缺失行（避免误删）

需求：Excel 数据中，仅关注 “订单号、销售额、订单日期”3 个核心列 —— 只要这 3 列有一个缺失，就删除该行；其他列（如 “物流单号”）缺失不影响。

代码：

# 用subset指定核心列，仅判断这些列的缺失值

df_clean3 = df.dropna(subset=["订单号", "销售额", "订单日期"])

print("仅删除核心列（订单号、销售额、订单日期）有缺失的行后：")

print(df_clean3)

# 结果：删除1003行（销售额缺失）、1004行（核心列全缺失），保留1001、1002、1005行

# （1002行“客户ID、物流单号”缺失，但核心列完整，故保留）

场景 4：保留 “至少 3 个非缺失值” 的行（灵活筛选）

需求：Excel 数据中，只要某行有至少 3 个列无缺失值，就保留；不足 3 个则删除（适用于 “部分字段缺失但仍有分析价值” 的场景）。

代码：

# 用thresh=3保留至少3个非缺失值的行

df_clean4 = df.dropna(thresh=3)

print("保留至少3个非缺失值的行后：")

print(df_clean4)

# 结果：

# 1001行（5个非缺失值）→ 保留；1002行（3个非缺失值）→ 保留；

# 1003行（3个非缺失值）→ 保留；1004行（0个）→ 删除；1005行（4个）→ 保留

场景 5：删除 “全是缺失值的列”（清理无效列）

需求：若 Excel 导入的数据中，某列（如 “备用字段”）所有值都是NaN，无任何分析价值，用dropna删除该列。

代码：

# 先模拟一列全缺失的情况（在原df中添加“备用字段”列）

df["备用字段"] = pd.NA  # 新增列全为缺失值

# 用axis=1删除全缺失的列（how='all'）

df_clean5 = df.dropna(axis=1, how="all")

print("删除全缺失的列后，剩余列名：")

print(df_clean5.columns.tolist())

# 结果：删除“备用字段”列，保留“订单号、客户ID、销售额、订单日期、物流单号”5列

五、使用 dropna 的 4 个关键注意事项：避免踩坑

dropna虽操作简单，但误用可能导致有用数据丢失或分析偏差，需注意以下细节：

1. 先查缺失值分布，再决定是否删除

删除前务必用df.isnull().sum()或df.isnull().mean()查看缺失值占比：

若某列缺失值占比 > 50%（如 “物流单号” 缺失 70%），删除该列更合理（避免删除大量行）；
若某行缺失值仅 1 个且为非核心列（如 “备注”），优先保留该行（用fillna填充，而非dropna删除）。

2. dropna 默认 “不修改原数据”，需赋值或用 inplace=True

dropna默认返回新的 DataFrame，不修改原始数据，需将结果赋值给变量（如df_clean = df.dropna()）；若想直接修改原数据，可加inplace=True参数：

df.dropna(inplace=True)  # 直接在原df上删除缺失行，无需赋值

3. 区分 “空白单元格” 与 “无效值” 的导入处理

Excel 中的 “空白单元格” 导入后会成为NaN，但 “文本型无效值”（如 “无数据”“待补充”）需先转化为NaN，dropna才能识别：

# 先将Excel中的“无数据”“待补充”转化为NaN，再用dropna删除

df = pd.read_excel("sales_data.xlsx")

df = df.replace(["无数据", "待补充"], pd.NA)  # 替换无效文本为NaN

df_clean = df.dropna()

4. 谨慎删除列：避免丢失潜在有用数据

dropna(axis=1)删除列时需格外小心 —— 即使某列当前缺失值多，但后续可能通过其他表补充（如 “物流单号” 可从物流系统补录），建议先备份原始数据，再删除列：

# 备份原始数据，再删除列

df_backup = df.copy()  # 备份

df_clean = df_backup.dropna(axis=1, how="all")  # 删除全缺失列

六、总结：dropna 的适用场景与 “替代方案” 选择

dropna的核心价值是 “快速剔除无效数据”，但并非所有缺失值场景都适用，需结合 Excel 数据的实际情况选择：

1. 优先用 dropna 的 3 种场景

缺失值占比低（<5%），且无规律（如随机录入遗漏）；
缺失值对应 “无效样本”（如 Excel 表中 “订单号” 缺失的行，无业务意义）；
后续分析对数据完整性要求高（如机器学习建模、精准统计计算）。

2. 改用 “填充法”（fillna）的 2 种场景

缺失值占比高（>10%），删除会导致样本量不足（如 “客户年龄” 缺失 20%，可用均值填充）；
缺失值有规律（如 Excel 表中 “季度销售额” 的空值对应 “0 销售额”，可用 0 填充）。

3. 数据清洗的 “黄金流程”

处理 Excel 导入数据时，建议遵循 “查→判→删 / 填” 的流程：

查：用df.isnull().sum()查看缺失值分布；
判：判断缺失值来源（录入遗漏 / 格式问题）与占比；
删 / 填：占比低、无意义→用dropna删除；占比高、有规律→用fillna填充。

通过合理使用dropna，能有效净化 Excel 导入的数据，为后续的统计分析、可视化、建模打下坚实基础 —— 这也是数据处理中 “去伪存真” 的关键一步。

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

缺失值 pandas 字段偏差机器学习统计计算数据处理统计分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇【CDA干货】深入解析卡方检验与 t 检验：差异、适用场景与实践应用

下一篇CDA 数据分析师：解锁表结构数据特征价值的专业核心

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

【CDA干货】Excel 导入数据含缺失值？详解 dropna 函数的功能与实战应用

Excel 导入数据含缺失值？详解 dropna 函数的功能与实战应用

一、先搞懂：Excel 导入数据的缺失值从哪来？有什么危害？

1. Excel 数据缺失的 3 类常见来源

2. 缺失值不处理的 4 大危害

二、dropna 的核心作用：精准删除 “含缺失值的行 / 列”，净化数据

关键提醒：dropna 不是 “唯一选择”，但却是 “高效选择”

三、dropna 的参数拆解：3 个核心参数，控制 “删什么、怎么删”

四、实战：用 dropna 处理 Excel 导入数据的 5 类典型场景

前提准备：导入工具与数据

场景 1：删除 “任何一列有缺失” 的行（默认用法）

场景 2：仅删除 “所有列都缺失” 的行（保留部分有效数据）

场景 3：仅针对 “核心列” 删除缺失行（避免误删）

场景 4：保留 “至少 3 个非缺失值” 的行（灵活筛选）

场景 5：删除 “全是缺失值的列”（清理无效列）

五、使用 dropna 的 4 个关键注意事项：避免踩坑

1. 先查缺失值分布，再决定是否删除

2. dropna 默认 “不修改原数据”，需赋值或用 inplace=True

3. 区分 “空白单元格” 与 “无效值” 的导入处理

4. 谨慎删除列：避免丢失潜在有用数据

六、总结：dropna 的适用场景与 “替代方案” 选择

1. 优先用 dropna 的 3 种场景

2. 改用 “填充法”（fillna）的 2 种场景

3. 数据清洗的 “黄金流程”

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】MySQL 按顺序计数：缺失数据补全与占位 ...

【CDA干货】Tableau 累计百分比计算：从基础操作到 ...

CDA 数据分析师：逻辑回归实战指南 —— 二分类预测 ...

【CDA干货】MySQL 频繁写入同一表：影响分析与优化 ...

【CDA干货】班级规模与平均成绩：相关系数计算全流 ...

CDA 数据分析师：相关系数实战指南 —— 破解变量关 ...

【CDA干货】前向神经网络隐藏层与神经元个数的确定 ...

【CDA干货】Excel 辅助 K-Means 聚类实操手册 ...

CDA 数据分析师：方差分析（ANOVA）与 F 检验实战指 ...

【CDA干货】左尾数据的正态化处理：从识别到落地的 ...

【CDA干货】JMP 绘制箱线图：从数据分布可视化到深 ...

CDA 数据分析师：列联表分析与卡方检验实战指南 — ...

【CDA干货】力导向图与桑基图的叠加艺术：解锁 “结 ...

【CDA干货】Tableau index()/size()实战解析 ...

CDA 数据分析师：假设检验实战指南 —— 用数据验证 ...

【CDA干货】运营指标：从定义到实战，驱动业务增长 ...

【CDA干货】卷积层之后：归一化与激活函数的取舍之 ...

CDA 数据分析师：可视化驱动的数据探索与统计分析实 ...

【CDA干货】Python 实践：神经网络与卡尔曼滤波融合 ...

【CDA干货】神经网络与卡尔曼滤波的融合：突破传统 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !