如何在 Pandas 中遍历 DataFrame 的行?-CDA数据分析师官网

如何在 Pandas 中遍历 DataFrame 的行?

2023-04-23

在 Pandas 中，DataFrame 是一个非常重要且常用的数据结构，它提供了对表格数据进行操作的强大功能。当我们需要遍历 DataFrame 的行时，通常有两种方法可供选择：使用 iterrows() 方法和使用 itertuples() 方法。这篇文章将详细介绍这两种方法的使用方法和性能差异。

使用 iterrows() 方法

iterrows() 方法是 Pandas 中最常用的遍历 DataFrame 行的方法之一。它可以将 DataFrame 中的每一行转换为一个元组，其中包含行索引和行数据。下面是使用 iterrows() 方法遍历 DataFrame 行的基本示例：

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})

# 遍历 DataFrame 行
for index, row in df.iterrows():
    print(f"Row index: {index}, Row data: {row}")

在上面的代码中，我们首先创建了一个简单的 DataFrame，然后使用 iterrows() 方法遍历了每一行，并打印出了行索引和行数据。输出结果如下：

Row index: 0, Row data: col1    1
col2    3
Name: 0, dtype: int64
Row index: 1, Row data: col1    2
col2    4
Name: 1, dtype: int64

从输出结果可以看出，iterrows() 方法返回的是一个元组，其中第一个元素是行索引，第二个元素是一个 Series 对象，它包含了该行的数据。我们可以使用 .loc[] 方法来访问该 Series 对象中的每个元素。

虽然 iterrows() 方法非常方便，但它并不适合处理大型 DataFrame。这是因为 iterrows() 是一种基于 Python for 循环的方法，它需要遍历整个 DataFrame 的每一行，并将其转换为一个元组。对于大型 DataFrame，这种方法的计算成本非常高，因此可能会导致性能问题。

使用 itertuples() 方法

如果您需要处理大型 DataFrame，那么建议使用 itertuples() 方法而不是 iterrows() 方法。itertuples() 方法返回一个生成器对象，其中包含每一行的命名元组（namedtuple）。与 iterrows() 方法不同，itertuples() 方法会在 DataFrame 中更快地处理大量数据。下面是使用 itertuples() 方法遍历 DataFrame 行的示例：

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})

# 遍历 DataFrame 行
for row in df.itertuples():
    print(row)

在上面的代码中，我们首先创建了一个简单的 DataFrame，然后使用 itertuples() 方法遍历了每一行，并打印出了命名元组。输出结果如下：

Pandas(Index=0, col1=1, col2=3)
Pandas(Index=1, col1=2, col2=4)

从输出结果可以看出，itertuples() 方法返回的是一个命名元组，其中包含行索引和行数据。与 iterrows() 方法不同，它并没有将每一行转换为一个 Series 对象。这样可以减少额外的计算成本，并提高代码的性能。

用于遍历 DataFrame 行的最佳方法

使用 iterrows() 方法或 itertuples() 方法都可以遍历 DataFrame 行。但是，由于 iterrows() 方法需要将每一行转换为一个元组，因此它在处理大型 DataFrame 时可能会导致性能问题。相比之下，itertuples() 方法更加快速和高效，因为它直接返回一个元组，而不需要将其转换为 Series 对象。

因此，建议在处理大型 DataFrame 时使用 itertuples() 方法，以

提高代码的性能。但是，在处理小型 DataFrame 时，iterrows() 方法的速度可能更快，因为它比 itertuples() 方法少了一些额外的计算成本。

另外，需要注意的是，使用 iterrows() 方法或 itertuples() 方法遍历 DataFrame 行时，都不能修改数据框的值。如果需要修改 DataFrame 数据，则应该使用 .loc[] 方法或类似方法。

总结

遍历 DataFrame 行是在 Pandas 中常见的操作之一。有两种方法可以实现这个目标：iterrows() 方法和itertuples() 方法。虽然这两种方法都可以遍历 DataFrame 行，但是它们的性能差异很大。如果需要处理大型 DataFrame，则建议使用 itertuples() 方法以提高代码的性能。但是，在处理小型 DataFrame 时，iterrows() 方法可能更快。

无论使用哪种方法，都应该记住不能直接修改 DataFrame 的值。如果需要修改 DataFrame 数据，则应该使用类似 .loc[] 方法的方法。

希望本文对您在 Pandas 中遍历 DataFrame 行有所帮助。

DataFrame 索引 Series pandas 数据结构

数据分析咨询请扫描二维码

上一篇应统硕士，从事数据分析的话，先学sql 还是python呢？

下一篇MySql数据库在建表的时候，这个表最合理是建多少个字段合适？

如何在 Pandas 中遍历 DataFrame 的行?

使用 iterrows() 方法

使用 itertuples() 方法

用于遍历 DataFrame 行的最佳方法

总结

考试指南

报考指南

热门栏目

最新资讯

政府、国央企、科研单位——中国航信-面向测试度量 ...

CDA内训丨深圳迈瑞生物医疗数据分析统计思维培训 ...

CDA数据分析师应合肥阳光新能源科技有限公司邀约开 ...

CDA走进海尔大学

苏州中行&CDA数据分析师开展数据分析师培训 ...

中国银行江苏分行-大数据应用培训

浙江农信数据建模及案例应用培训

华夏银行信用卡中心-机器学习培训

字节跳动-CDA案例实操及行业分析

长沙银行-Python集训营

数据分析在业务中的三大应用场景

AI提示词的使用方法详解及示例

CDA立足未来职场，拓展前沿视野

CDA 塑造未来职涯：构筑未来职业发展的数字基石 ...

随机森林（Random Forest）算法的优点和缺点都有哪 ...

方差分析的基本思想和原理是什么？

发现了一个好用到爆的数据分析利器

自从搞懂了回调函数，我对Python的理解上了一个台阶 ...

2020在学硕士达300万，失去学历光环的新生代何去何 ...

缓解就业焦虑的利器，证书真的越多越有保障吗？ ...