热线电话：13121318867

首页大数据时代【CDA干货】Excel 导入数据含缺失值？详解 dropna 函数的功能与实战应用

【CDA干货】Excel 导入数据含缺失值？详解 dropna 函数的功能与实战应用

2025-09-16

Excel 导入数据含缺失值？详解 dropna 函数的功能与实战应用

在用 Python（如 pandas 库）处理 Excel 数据时，“缺失值” 是高频痛点 ——Excel 表中的空白单元格、“N/A” 标记或格式错误，导入后常会转化为 pandas 中的NaN（Not a Number）值。这些缺失值若不处理，会导致统计分析偏差（如均值计算不准）、模型训练报错（如机器学习算法无法识别NaN）。而dropna作为 pandas 中删除缺失值的核心函数，是解决这一问题的关键工具。本文将从 Excel 数据缺失场景出发，全面解析dropna的作用、参数配置与实战用法，帮助读者高效完成数据清洗。

一、先搞懂：Excel 导入数据的缺失值从哪来？有什么危害？

在用dropna处理缺失值前，需先明确 Excel 数据缺失的根源与影响，避免 “盲目删除” 导致数据浪费。

1. Excel 数据缺失的 3 类常见来源

Excel 作为手动录入、多表合并的常用工具，缺失值的产生往往与操作场景相关：

手工录入遗漏：如员工信息表中，部分员工的 “入职日期”“联系方式” 因录入疏忽未填写，形成空白单元格；
数据格式不兼容：Excel 表中混合文本与数值格式（如 “年龄” 列既有数字 “25”，又有文本 “待补充”），导入 pandas 时文本内容会被识别为NaN；
多表合并残留：将 Excel 表 “销售数据” 与 “客户信息” 合并时，部分客户无匹配的销售记录，导致 “销售额”“订单号” 列出现NaN；
系统导出缺陷：从业务系统导出 Excel 数据时，因字段未配置或接口异常，部分列（如 “物流单号”）自动填充为空白。

2. 缺失值不处理的 4 大危害

若直接用含缺失值的 Excel 数据做分析，会引发一系列问题：

统计结果失真：计算 “平均销售额” 时，NaN值会被自动排除，若缺失值占比高（如 30%），会导致均值偏离真实水平；
可视化错误：用含NaN的 “月度销量” 列绘制折线图时，会出现断点或空白区域，无法完整呈现趋势；
模型训练失败：机器学习算法（如线性回归、决策树）大多不支持NaN输入，直接训练会报错；
业务决策偏差：如用户画像分析中，“消费频次” 列的缺失值若被误判为 “0 次”，会导致低价值用户群体误判。

二、dropna 的核心作用：精准删除 “含缺失值的行 / 列”，净化数据

dropna是 pandas 库中专门用于 “删除含NaN值的行或列” 的函数，其核心作用可概括为：通过灵活配置参数，选择性剔除数据集中 “无效的行 / 列”，保留完整、可用的数据样本，为后续分析（如统计计算、建模）扫清障碍。

简单来说，当 Excel 导入的数据表存在 “某行多个字段缺失”“某列全是空白” 时，dropna能帮你快速筛选出 “无缺失的有效数据”—— 例如，删除 “销售额” 列缺失的行，避免这些无效数据影响 “月度销售总额” 的计算。

关键提醒：dropna 不是 “唯一选择”，但却是 “高效选择”

处理缺失值的方法还有 “填充法”（如用均值、中位数填充，fillna函数），但dropna的优势在于：

当缺失值占比低（如 < 5%）且无规律时，删除含缺失值的行 / 列对整体数据影响小，操作更简单；
当缺失值对应的是 “无效样本”（如 Excel 表中 “订单号” 缺失的行，无实际业务意义），删除是最合理的选择，避免填充导致的虚假数据。

三、dropna 的参数拆解：3 个核心参数，控制 “删什么、怎么删”

dropna的灵活性体现在参数配置上 —— 通过调整axis（方向）、how（删除条件）、subset（指定列）等参数，可精准控制删除范围，避免误删有用数据。以下是 Excel 数据处理中最常用的 4 个参数：

参数名	取值范围	核心作用	Excel 数据场景示例
`axis`	0（默认）/1	0 = 删除含缺失值的行；1 = 删除含缺失值的列	若 Excel “用户表” 中部分行的 “手机号” 缺失→用`axis=0`删行；某列 “备注” 全是空白→用`axis=1`删列
`how`	'any'（默认）/'all'	'any'= 行 / 列只要有一个缺失值就删除；'all'= 行 / 列所有值都缺失才删除	若 Excel “订单表” 中某行 “订单号” 缺失（其他字段完整）→'any' 会删除该行；某行全空白→'all' 才删除
`subset`	列表（如 [' 列 1',' 列 2']）	仅针对指定列的缺失值判断是否删除行（仅对`axis=0`生效）	仅关注 Excel “销售表” 中 “销售额”“订单日期” 列的缺失值→`subset=['销售额','订单日期']`，其他列缺失不影响
`thresh`	整数（如 3）	行 / 列至少有 N 个非缺失值才保留，否则删除（与`how`互补）	Excel “产品表” 需保留 “产品 ID、名称、价格”3 个核心列无缺失的行→`thresh=3`

四、实战：用 dropna 处理 Excel 导入数据的 5 类典型场景

结合 Excel 数据的常见缺失情况，以下用 pandas 代码演示dropna的实战应用，从 “导入 Excel” 到 “删除缺失值” 形成完整流程。

前提准备：导入工具与数据

首先需安装 pandas 和读取 Excel 的依赖库（openpyxl用于读取.xlsx 格式，xlrd用于.xls 格式）：

pip install pandas openpyxl xlrd

假设我们有一份 Excel 文件sales_data.xlsx，包含 “订单号、客户 ID、销售额、订单日期、物流单号”5 列，导入后的数据如下（含缺失值）：

订单号	客户 ID	销售额	订单日期	物流单号
1001	C001	500.0	2024-01-01	SF123
1002	NaN	800.0	2024-01-02	NaN
1003	C003	NaN	2024-01-03	ZT456
1004	NaN	NaN	NaN	NaN
1005	C005	1200.0	2024-01-05	NaN

场景 1：删除 “任何一列有缺失” 的行（默认用法）

需求：Excel 数据中，只要 “订单号、客户 ID、销售额” 等任意一列有缺失，就删除该行（确保每行数据完整）。

代码：

import pandas as pd

# 1. 导入Excel数据（指定sheet，读取.xlsx需用engine='openpyxl'）

df = pd.read_excel("sales_data.xlsx", sheet_name="Sheet1", engine="openpyxl")

# 2. 查看导入后的缺失值情况

print("导入后的数据缺失值统计：")

print(df.isnull().sum())  # 输出每列缺失值数量：客户ID=2，销售额=1，物流单号=3，订单日期=1

# 3. 用dropna默认参数删除含缺失值的行（axis=0, how='any'）

df_clean1 = df.dropna()

# 4. 查看清洗后的数据

print("n删除任何一列有缺失的行后：")

print(df_clean1)

# 结果：仅保留1001行（无任何缺失值），其他4行因含缺失值被删除

场景 2：仅删除 “所有列都缺失” 的行（保留部分有效数据）

需求：Excel 数据中，仅当某行所有列（如 1004 行 “订单号、客户 ID” 全为NaN）都缺失时才删除，部分缺失的行（如 1002 行 “客户 ID、物流单号” 缺失）保留。

代码：

# 用how='all'删除全缺失的行

df_clean2 = df.dropna(how="all")

print("仅删除全缺失的行后：")

print(df_clean2)

# 结果：删除1004行（全缺失），保留1001、1002、1003、1005行（部分缺失）

场景 3：仅针对 “核心列” 删除缺失行（避免误删）

需求：Excel 数据中，仅关注 “订单号、销售额、订单日期”3 个核心列 —— 只要这 3 列有一个缺失，就删除该行；其他列（如 “物流单号”）缺失不影响。

代码：

# 用subset指定核心列，仅判断这些列的缺失值

df_clean3 = df.dropna(subset=["订单号", "销售额", "订单日期"])

print("仅删除核心列（订单号、销售额、订单日期）有缺失的行后：")

print(df_clean3)

# 结果：删除1003行（销售额缺失）、1004行（核心列全缺失），保留1001、1002、1005行

# （1002行“客户ID、物流单号”缺失，但核心列完整，故保留）

场景 4：保留 “至少 3 个非缺失值” 的行（灵活筛选）

需求：Excel 数据中，只要某行有至少 3 个列无缺失值，就保留；不足 3 个则删除（适用于 “部分字段缺失但仍有分析价值” 的场景）。

代码：

# 用thresh=3保留至少3个非缺失值的行

df_clean4 = df.dropna(thresh=3)

print("保留至少3个非缺失值的行后：")

print(df_clean4)

# 结果：

# 1001行（5个非缺失值）→ 保留；1002行（3个非缺失值）→ 保留；

# 1003行（3个非缺失值）→ 保留；1004行（0个）→ 删除；1005行（4个）→ 保留

场景 5：删除 “全是缺失值的列”（清理无效列）

需求：若 Excel 导入的数据中，某列（如 “备用字段”）所有值都是NaN，无任何分析价值，用dropna删除该列。

代码：

# 先模拟一列全缺失的情况（在原df中添加“备用字段”列）

df["备用字段"] = pd.NA  # 新增列全为缺失值

# 用axis=1删除全缺失的列（how='all'）

df_clean5 = df.dropna(axis=1, how="all")

print("删除全缺失的列后，剩余列名：")

print(df_clean5.columns.tolist())

# 结果：删除“备用字段”列，保留“订单号、客户ID、销售额、订单日期、物流单号”5列

五、使用 dropna 的 4 个关键注意事项：避免踩坑

dropna虽操作简单，但误用可能导致有用数据丢失或分析偏差，需注意以下细节：

1. 先查缺失值分布，再决定是否删除

删除前务必用df.isnull().sum()或df.isnull().mean()查看缺失值占比：

若某列缺失值占比 > 50%（如 “物流单号” 缺失 70%），删除该列更合理（避免删除大量行）；
若某行缺失值仅 1 个且为非核心列（如 “备注”），优先保留该行（用fillna填充，而非dropna删除）。

2. dropna 默认 “不修改原数据”，需赋值或用 inplace=True

dropna默认返回新的 DataFrame，不修改原始数据，需将结果赋值给变量（如df_clean = df.dropna()）；若想直接修改原数据，可加inplace=True参数：

df.dropna(inplace=True)  # 直接在原df上删除缺失行，无需赋值

3. 区分 “空白单元格” 与 “无效值” 的导入处理

Excel 中的 “空白单元格” 导入后会成为NaN，但 “文本型无效值”（如 “无数据”“待补充”）需先转化为NaN，dropna才能识别：

# 先将Excel中的“无数据”“待补充”转化为NaN，再用dropna删除

df = pd.read_excel("sales_data.xlsx")

df = df.replace(["无数据", "待补充"], pd.NA)  # 替换无效文本为NaN

df_clean = df.dropna()

4. 谨慎删除列：避免丢失潜在有用数据

dropna(axis=1)删除列时需格外小心 —— 即使某列当前缺失值多，但后续可能通过其他表补充（如 “物流单号” 可从物流系统补录），建议先备份原始数据，再删除列：

# 备份原始数据，再删除列

df_backup = df.copy()  # 备份

df_clean = df_backup.dropna(axis=1, how="all")  # 删除全缺失列

六、总结：dropna 的适用场景与 “替代方案” 选择

dropna的核心价值是 “快速剔除无效数据”，但并非所有缺失值场景都适用，需结合 Excel 数据的实际情况选择：

1. 优先用 dropna 的 3 种场景

缺失值占比低（<5%），且无规律（如随机录入遗漏）；
缺失值对应 “无效样本”（如 Excel 表中 “订单号” 缺失的行，无业务意义）；
后续分析对数据完整性要求高（如机器学习建模、精准统计计算）。

2. 改用 “填充法”（fillna）的 2 种场景

缺失值占比高（>10%），删除会导致样本量不足（如 “客户年龄” 缺失 20%，可用均值填充）；
缺失值有规律（如 Excel 表中 “季度销售额” 的空值对应 “0 销售额”，可用 0 填充）。

3. 数据清洗的 “黄金流程”

处理 Excel 导入数据时，建议遵循 “查→判→删 / 填” 的流程：

查：用df.isnull().sum()查看缺失值分布；
判：判断缺失值来源（录入遗漏 / 格式问题）与占比；
删 / 填：占比低、无意义→用dropna删除；占比高、有规律→用fillna填充。

通过合理使用dropna，能有效净化 Excel 导入的数据，为后续的统计分析、可视化、建模打下坚实基础 —— 这也是数据处理中 “去伪存真” 的关键一步。

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

缺失值 pandas 字段偏差机器学习数据处理统计计算统计分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇【CDA干货】深入解析卡方检验与 t 检验：差异、适用场景与实践应用

下一篇CDA 数据分析师：解锁表结构数据特征价值的专业核心

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

【CDA干货】Excel 导入数据含缺失值？详解 dropna 函数的功能与实战应用

Excel 导入数据含缺失值？详解 dropna 函数的功能与实战应用

一、先搞懂：Excel 导入数据的缺失值从哪来？有什么危害？

1. Excel 数据缺失的 3 类常见来源

2. 缺失值不处理的 4 大危害

二、dropna 的核心作用：精准删除 “含缺失值的行 / 列”，净化数据

关键提醒：dropna 不是 “唯一选择”，但却是 “高效选择”

三、dropna 的参数拆解：3 个核心参数，控制 “删什么、怎么删”

四、实战：用 dropna 处理 Excel 导入数据的 5 类典型场景

前提准备：导入工具与数据

场景 1：删除 “任何一列有缺失” 的行（默认用法）

场景 2：仅删除 “所有列都缺失” 的行（保留部分有效数据）

场景 3：仅针对 “核心列” 删除缺失行（避免误删）

场景 4：保留 “至少 3 个非缺失值” 的行（灵活筛选）

场景 5：删除 “全是缺失值的列”（清理无效列）

五、使用 dropna 的 4 个关键注意事项：避免踩坑

1. 先查缺失值分布，再决定是否删除

2. dropna 默认 “不修改原数据”，需赋值或用 inplace=True

3. 区分 “空白单元格” 与 “无效值” 的导入处理

4. 谨慎删除列：避免丢失潜在有用数据

六、总结：dropna 的适用场景与 “替代方案” 选择

1. 优先用 dropna 的 3 种场景

2. 改用 “填充法”（fillna）的 2 种场景

3. 数据清洗的 “黄金流程”

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !