Python DataFrame数据拼接技巧分享

一、基础拼接技巧

当我们需要将两个DataFrame进行拼接时，可以使用concat()函数来实现。concat()函数接受一个列表作为参数，列表中包含需要拼接的DataFrame。

concat()函数的第一个参数是需要拼接的DataFrame列表。第二个参数是指定拼接的轴，axis=0表示按行拼接，axis=1表示按列拼接。默认为axis=0。

下面是一个示例：

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']})

result = pd.concat([df1, df2], axis=0)
print(result)

上面的代码中，我们创建了两个DataFrame（df1和df2），然后使用concat()函数按行拼接这两个DataFrame，并将结果存储在result变量中。最后我们输出result的内容。

二、不同列名的DataFrame拼接

当我们需要将两个不同列名的DataFrame进行拼接时，可以使用merge()函数。merge()函数是基于关键字拼接的。关键字可以通过left_on和right_on参数指定。

下面是一个示例：

import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

result = pd.merge(df1, df2, on='key')
print(result)

上面的代码中，我们创建了两个DataFrame（df1和df2），然后使用merge()函数按照关键字‘key’拼接这两个DataFrame，并将结果存储在result变量中。最后我们输出result的内容。

三、多个不同列名的DataFrame拼接

当我们需要将多个不同列名的DataFrame进行拼接时，可以使用merge()函数嵌套连接。先用merge()函数将前两个DataFrame拼接，然后再将拼接后的结果与下一个DataFrame拼接。这样循环拼接下去，就可以将多个DataFrame拼接成一个新的DataFrame。

下面是一个示例：

import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

df3 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'E': ['E0', 'E1', 'E2', 'E3'],
                    'F': ['F0', 'F1', 'F2', 'F3']})

result = pd.merge(pd.merge(df1, df2, on='key'), df3, on='key')
print(result)

上面的代码中，我们创建了三个DataFrame（df1、df2和df3），然后使用merge()函数将df1和df2按照关键字‘key’拼接，再将拼接后的结果和df3按照关键字‘key’拼接，并将结果存储在result变量中。最后我们输出result的内容。

四、处理重复列名

当我们拼接的两个DataFrame具有重复的列名时，concat()函数和merge()函数都无法正确处理。为了解决这个问题，我们可以使用suffixes参数来指定每个重复列名的后缀。

下面是一个示例：

import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7']})

result = pd.merge(df1, df2, on='key', suffixes=('_left', '_right'))
print(result)

上面的代码中，我们创建了两个DataFrame（df1和df2），df1和df2具有相同的列名‘A’和‘B’。我们使用merge()函数按照关键字‘key’拼接这两个DataFrame，并通过suffixes参数指定‘A’和‘B’列名的后缀，以区分这两个重复列名。最后我们输出拼接后的结果。

五、使用join()函数

另一种常用的数据拼接函数是join()函数，它类似于merge()函数，也是基于关键字拼接的。不同的是，join()函数是DataFrame的成员函数，主要用于按照DataFrame索引进行连接。

下面是一个示例：

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']},
                   index=['K0', 'K1', 'K2', 'K3'])

df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=['K0', 'K1', 'K2', 'K3'])

result = df1.join(df2)
print(result)

上面的代码中，我们创建了两个DataFrame（df1和df2），它们具有相同的索引。我们使用join()函数按照索引拼接这两个DataFrame，并将结果存储在result变量中。最后我们输出result的内容。

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/236899.html

Python DataFrame数据拼接技巧分享

一、基础拼接技巧

二、不同列名的DataFrame拼接

三、多个不同列名的DataFrame拼接

四、处理重复列名

五、使用join()函数

相关推荐

发表回复