Python的高效迭代工具：iterrows()

Python是一种流行的高级编程语言，因其易于学习、简单且易读的语法而备受欢迎。Python提供了许多内置库和方法，用于实现不同的任务和解决各种问题。在这些方法中，iterrows()是Python提供的一个重要工具之一，它可用于有效地迭代数据帧(DataFrame)中的数据。

一、iterrows()如何工作？

iterrows()是Pandas库中一个重要的迭代器函数。它可以很方便地遍历一个数据帧中的所有行。当你使用iterrows()迭代数据帧时，每行将变成一个元组(Tuple)，包含行索引和行数据。例如，下面的代码展示了如何使用iterrows()迭代一个包含三个行、两个列的数据帧：

import pandas as pd

df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6]})

for index, row in df.iterrows():
    print(index, row)

在这个例子中，我们用pd.DataFrame创建了一个名为df的数据帧，该数据帧包含两个列’a’和’b’，以及三行数据。我们采用for循环遍历df中的所有行，并用iterrows()把每行转换为元组（包括行索引和所有数据）。在循环的每个迭代中，我们用print()函数打印出每个元组的内容。输出如下所示：

0 a    1
  b    4
1 a    2
  b    5
2 a    3
  b    6
dtype: int64

可以看到输出结果中，每一行的都被转化为了行索引和行上的数值。因为该数据帧有两列，所以元组也有两个元素，这是一个不错的方式来访问每一行数据的不同列。

二、iterrows()有什么优点？

iterrows()有很多让人感到惊讶和欢喜的优点。以下是其中最受欢迎的一些：

1.方便

iterrows()对于处理大型、迭代数据帧非常方便。它不需要复杂的语法和计算量，也不需要编写任何功能。只需要一个简单的for循环就足够了。

2.高效

iterrows()是一个非常高效的函数。当你处理大型数据帧时，Pandas会在后台优化处理方法并分配数据，进而提高计算速度。这意味着iterrows()不会占用大量的时间和系统资源。

3.可存储多个变量

iterrows()可用于遍历和访问大型数据结构。利用iterrows()可以在许多变量上进行迭代，更容易提取不同列数据。此外，iterrows()可以在一个简单和清晰的语法下，同时处理多个返回值。

三、iterrows()的应用

1.数据操作

iterrows()可以将数据转换为更易于处理的格式。例如，你可以通过迭代一个数据帧来查找特定列中包含的最小值。

import pandas as pd

df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6]})

min_val = float('inf')
 
for i, row in df.iterrows():
    if row['a'] < min_val:
        min_val = row['a']
 
print("The minimum value is: ", min_val)

在本例中，我们创建了一个数据帧，然后用iterrows()迭代了每行数据。在迭代中，我们用if语句查找每一行数据帧中‘a’列的最小值。当它找到最小值时，我们将其存储在一个变量中，而不是在所有迭代上进行设置和重复计算。这种方法避免了因重复计算而导致的性能问题，并提高了运行效率。

2.数据清理

iterrows()可以用于数据清洗。例如，你可以使用iterrows()在数据中过滤特定的行或列。

import pandas as pd

df = pd.DataFrame({
    'name': ['Adam','Bob','John','Mike'],
    'age': [25,22,20,30],
    'income': [5000,4000,6000,8000]})

for index, row in df.iterrows():
    if row['income'] <= 5000:
        df = df.drop(index=index)

print(df)

在本例中，我们使用iterrows()迭代了数据帧中的每一行，找到income低于等于5000的行，并删掉所有在该区间内的行。在循环的这个过程中尽可能减少计算量，这样可以提高代码效率。

3.数据增强

iterrows()也对于数据增强十分有用，因为它可以使增强数据变得初步安全。例如，你可以使用iterrows()在数据帧中根据日期过滤和杀死日期之外的行:

import pandas as pd

df = pd.DataFrame({
    'date': ['20191201','20191202','20191203'],
    'value': [1,2,3]})

for index, row in df.iterrows():
    if row['date'] != '20191201':
        df.drop(index=index, inplace=True)

print(df)

无论哪种方式，数据增强都需要严格管理,iterrows()这个内置函数对于数据增强非常方便，减少了手写代码中的许多重复部分。

四、总结

iterrows() 是 Python Pandas 库中一个高效的迭代器功能。可以根据它的目的在多种方案中快速实现循环，并降低总迭代时间。正如本文介绍的那样，iterrows()是一个非常方便、高效的工具。当你学习Pandas的时候，iterrows()是值得掌握的一项技术。希望本文对你学习iterrows()起到了很好的帮助作用。

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/197932.html