热线电话:13121318867

登录
首页大数据时代【CDA干货】Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用
【CDA干货】Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用
2025-09-16
收藏

Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用

在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频痛点 ——Excel 表中的空白单元格、“N/A” 标记或格式错误,导入后常会转化为 pandas 中的NaN(Not a Number)值。这些缺失值若不处理,会导致统计分析偏差(如均值计算不准)、模型训练报错(如机器学习算法无法识别NaN)。而dropna作为 pandas 中删除缺失值的核心函数,是解决这一问题的关键工具。本文将从 Excel 数据缺失场景出发,全面解析dropna的作用、参数配置与实战用法,帮助读者高效完成数据清洗

一、先搞懂:Excel 导入数据的缺失值从哪来?有什么危害?

在用dropna处理缺失值前,需先明确 Excel 数据缺失的根源与影响,避免 “盲目删除” 导致数据浪费。

1. Excel 数据缺失的 3 类常见来源

Excel 作为手动录入、多表合并的常用工具,缺失值的产生往往与操作场景相关:

  • 手工录入遗漏:如员工信息表中,部分员工的 “入职日期”“联系方式” 因录入疏忽未填写,形成空白单元格;

  • 数据格式不兼容:Excel 表中混合文本与数值格式(如 “年龄” 列既有数字 “25”,又有文本 “待补充”),导入 pandas 时文本内容会被识别为NaN

  • 多表合并残留:将 Excel 表 “销售数据” 与 “客户信息” 合并时,部分客户无匹配的销售记录,导致 “销售额”“订单号” 列出现NaN

  • 系统导出缺陷:从业务系统导出 Excel 数据时,因字段未配置或接口异常,部分列(如 “物流单号”)自动填充为空白。

2. 缺失值不处理的 4 大危害

若直接用含缺失值的 Excel 数据做分析,会引发一系列问题:

  • 统计结果失真:计算 “平均销售额” 时,NaN值会被自动排除,若缺失值占比高(如 30%),会导致均值偏离真实水平;

  • 可视化错误:用含NaN的 “月度销量” 列绘制折线图时,会出现断点或空白区域,无法完整呈现趋势;

  • 模型训练失败机器学习算法(如线性回归决策树)大多不支持NaN输入,直接训练会报错;

  • 业务决策偏差:如用户画像分析中,“消费频次” 列的缺失值若被误判为 “0 次”,会导致低价值用户群体误判。

二、dropna 的核心作用:精准删除 “含缺失值的行 / 列”,净化数据

dropnapandas 库中专门用于 “删除含NaN值的行或列” 的函数,其核心作用可概括为:通过灵活配置参数,选择性剔除数据集中 “无效的行 / 列”,保留完整、可用的数据样本,为后续分析(如统计计算、建模)扫清障碍

简单来说,当 Excel 导入的数据表存在 “某行多个字段缺失”“某列全是空白” 时,dropna能帮你快速筛选出 “无缺失的有效数据”—— 例如,删除 “销售额” 列缺失的行,避免这些无效数据影响 “月度销售总额” 的计算。

关键提醒:dropna 不是 “唯一选择”,但却是 “高效选择”

处理缺失值的方法还有 “填充法”(如用均值、中位数填充,fillna函数),但dropna的优势在于:

  • 缺失值占比低(如 < 5%)且无规律时,删除含缺失值的行 / 列对整体数据影响小,操作更简单;

  • 缺失值对应的是 “无效样本”(如 Excel 表中 “订单号” 缺失的行,无实际业务意义),删除是最合理的选择,避免填充导致的虚假数据。

三、dropna 的参数拆解:3 个核心参数,控制 “删什么、怎么删”

dropna的灵活性体现在参数配置上 —— 通过调整axis(方向)、how(删除条件)、subset(指定列)等参数,可精准控制删除范围,避免误删有用数据。以下是 Excel 数据处理中最常用的 4 个参数:

参数名 取值范围 核心作用 Excel 数据场景示例
axis 0(默认)/1 0 = 删除含缺失值;1 = 删除含缺失值 若 Excel “用户表” 中部分行的 “手机号” 缺失→用axis=0删行;某列 “备注” 全是空白→用axis=1删列
how 'any'(默认)/'all' 'any'= 行 / 列只要有一个缺失值就删除;'all'= 行 / 列所有值都缺失才删除 若 Excel “订单表” 中某行 “订单号” 缺失(其他字段完整)→'any' 会删除该行;某行全空白→'all' 才删除
subset 列表(如 [' 列 1',' 列 2']) 仅针对指定列缺失值判断是否删除行(仅对axis=0生效) 仅关注 Excel “销售表” 中 “销售额”“订单日期” 列的缺失值subset=['销售额','订单日期'],其他列缺失不影响
thresh 整数(如 3) 行 / 列至少有 N 个非缺失值才保留,否则删除(与how互补) Excel “产品表” 需保留 “产品 ID、名称、价格”3 个核心列无缺失的行→thresh=3

四、实战:用 dropna 处理 Excel 导入数据的 5 类典型场景

结合 Excel 数据的常见缺失情况,以下用 pandas 代码演示dropna的实战应用,从 “导入 Excel” 到 “删除缺失值” 形成完整流程。

前提准备:导入工具与数据

首先需安装 pandas 和读取 Excel 的依赖库(openpyxl用于读取.xlsx 格式,xlrd用于.xls 格式):

pip install pandas openpyxl xlrd

假设我们有一份 Excel 文件sales_data.xlsx,包含 “订单号、客户 ID、销售额、订单日期、物流单号”5 列,导入后的数据如下(含缺失值):

订单号 客户 ID 销售额 订单日期 物流单号
1001 C001 500.0 2024-01-01 SF123
1002 NaN 800.0 2024-01-02 NaN
1003 C003 NaN 2024-01-03 ZT456
1004 NaN NaN NaN NaN
1005 C005 1200.0 2024-01-05 NaN

场景 1:删除 “任何一列有缺失” 的行(默认用法)

需求:Excel 数据中,只要 “订单号、客户 ID、销售额” 等任意一列有缺失,就删除该行(确保每行数据完整)。

代码

import pandas as pd

# 1. 导入Excel数据(指定sheet,读取.xlsx需用engine='openpyxl')

df = pd.read_excel("sales_data.xlsx", sheet_name="Sheet1", engine="openpyxl")

# 2. 查看导入后的缺失值情况

print("导入后的数据缺失值统计:")

print(df.isnull().sum())  # 输出每列缺失值数量:客户ID=2,销售额=1,物流单号=3,订单日期=1

# 3. 用dropna默认参数删除含缺失值的行(axis=0, how='any')

df_clean1 = df.dropna()

# 4. 查看清洗后的数据

print("n删除任何一列有缺失的行后:")

print(df_clean1)

# 结果:仅保留1001行(无任何缺失值),其他4行因含缺失值被删除

场景 2:仅删除 “所有列都缺失” 的行(保留部分有效数据)

需求:Excel 数据中,仅当某行所有列(如 1004 行 “订单号、客户 ID” 全为NaN)都缺失时才删除,部分缺失的行(如 1002 行 “客户 ID、物流单号” 缺失)保留。

代码

# 用how='all'删除全缺失的行

df_clean2 = df.dropna(how="all")

print("仅删除全缺失的行后:")

print(df_clean2)

# 结果:删除1004行(全缺失),保留1001、1002、1003、1005行(部分缺失)

场景 3:仅针对 “核心列” 删除缺失行(避免误删)

需求:Excel 数据中,仅关注 “订单号、销售额、订单日期”3 个核心列 —— 只要这 3 列有一个缺失,就删除该行;其他列(如 “物流单号”)缺失不影响。

代码

# 用subset指定核心列,仅判断这些列的缺失值

df_clean3 = df.dropna(subset=["订单号""销售额""订单日期"])

print("仅删除核心列(订单号、销售额、订单日期)有缺失的行后:")

print(df_clean3)

# 结果:删除1003行(销售额缺失)、1004行(核心列全缺失),保留1001、1002、1005行

# (1002行“客户ID、物流单号”缺失,但核心列完整,故保留)

场景 4:保留 “至少 3 个非缺失值” 的行(灵活筛选)

需求:Excel 数据中,只要某行有至少 3 个列无缺失值,就保留;不足 3 个则删除(适用于 “部分字段缺失但仍有分析价值” 的场景)。

代码

# 用thresh=3保留至少3个非缺失值的行

df_clean4 = df.dropna(thresh=3)

print("保留至少3个非缺失值的行后:")

print(df_clean4)

# 结果:

# 1001行(5个非缺失值)→ 保留;1002行(3个非缺失值)→ 保留;

# 1003行(3个非缺失值)→ 保留;1004行(0个)→ 删除;1005行(4个)→ 保留

场景 5:删除 “全是缺失值的列”(清理无效列)

需求:若 Excel 导入的数据中,某列(如 “备用字段”)所有值都是NaN,无任何分析价值,用dropna删除该列。

代码

# 先模拟一列全缺失的情况(在原df中添加“备用字段”列)

df["备用字段"] = pd.NA  # 新增列全为缺失值

# 用axis=1删除全缺失的列(how='all')

df_clean5 = df.dropna(axis=1, how="all")

print("删除全缺失的列后,剩余列名:")

print(df_clean5.columns.tolist())

# 结果:删除“备用字段”列,保留“订单号、客户ID、销售额、订单日期、物流单号”5列

五、使用 dropna 的 4 个关键注意事项:避免踩坑

dropna虽操作简单,但误用可能导致有用数据丢失或分析偏差,需注意以下细节:

1. 先查缺失值分布,再决定是否删除

删除前务必用df.isnull().sum()df.isnull().mean()查看缺失值占比:

  • 若某列缺失值占比 > 50%(如 “物流单号” 缺失 70%),删除该列更合理(避免删除大量行);

  • 若某行缺失值仅 1 个且为非核心列(如 “备注”),优先保留该行(用fillna填充,而非dropna删除)。

2. dropna 默认 “不修改原数据”,需赋值或用 inplace=True

dropna默认返回新的 DataFrame,不修改原始数据,需将结果赋值给变量(如df_clean = df.dropna());若想直接修改原数据,可加inplace=True参数:

df.dropna(inplace=True)  # 直接在原df上删除缺失行,无需赋值

3. 区分 “空白单元格” 与 “无效值” 的导入处理

Excel 中的 “空白单元格” 导入后会成为NaN,但 “文本型无效值”(如 “无数据”“待补充”)需先转化为NaNdropna才能识别:

# 先将Excel中的“无数据”“待补充”转化为NaN,再用dropna删除

df = pd.read_excel("sales_data.xlsx")

df = df.replace(["无数据""待补充"], pd.NA)  # 替换无效文本为NaN

df_clean = df.dropna()

4. 谨慎删除列:避免丢失潜在有用数据

dropna(axis=1)删除列时需格外小心 —— 即使某列当前缺失值多,但后续可能通过其他表补充(如 “物流单号” 可从物流系统补录),建议先备份原始数据,再删除列:

# 备份原始数据,再删除列

df_backup = df.copy()  # 备份

df_clean = df_backup.dropna(axis=1, how="all")  # 删除全缺失列

六、总结:dropna 的适用场景与 “替代方案” 选择

dropna的核心价值是 “快速剔除无效数据”,但并非所有缺失值场景都适用,需结合 Excel 数据的实际情况选择:

1. 优先用 dropna 的 3 种场景

  • 缺失值占比低(<5%),且无规律(如随机录入遗漏);

  • 缺失值对应 “无效样本”(如 Excel 表中 “订单号” 缺失的行,无业务意义);

  • 后续分析对数据完整性要求高(如机器学习建模、精准统计计算)。

2. 改用 “填充法”(fillna)的 2 种场景

  • 缺失值占比高(>10%),删除会导致样本量不足(如 “客户年龄” 缺失 20%,可用均值填充);

  • 缺失值有规律(如 Excel 表中 “季度销售额” 的空值对应 “0 销售额”,可用 0 填充)。

3. 数据清洗的 “黄金流程”

处理 Excel 导入数据时,建议遵循 “查→判→删 / 填” 的流程:

  1. :用df.isnull().sum()查看缺失值分布;

  2. :判断缺失值来源(录入遗漏 / 格式问题)与占比;

  3. 删 / 填:占比低、无意义→用dropna删除;占比高、有规律→用fillna填充。

通过合理使用dropna,能有效净化 Excel 导入的数据,为后续的统计分析、可视化、建模打下坚实基础 —— 这也是数据处理中 “去伪存真” 的关键一步。

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师资讯
更多

OK
客服在线
立即咨询
客服在线
立即咨询