一、基础拼接技巧
当我们需要将两个DataFrame进行拼接时,可以使用concat()函数来实现。concat()函数接受一个列表作为参数,列表中包含需要拼接的DataFrame。
concat()函数的第一个参数是需要拼接的DataFrame列表。第二个参数是指定拼接的轴,axis=0表示按行拼接,axis=1表示按列拼接。默认为axis=0。
下面是一个示例:
import pandas as pd df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}) df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 'B': ['B4', 'B5', 'B6', 'B7'], 'C': ['C4', 'C5', 'C6', 'C7'], 'D': ['D4', 'D5', 'D6', 'D7']}) result = pd.concat([df1, df2], axis=0) print(result)
上面的代码中,我们创建了两个DataFrame(df1和df2),然后使用concat()函数按行拼接这两个DataFrame,并将结果存储在result变量中。最后我们输出result的内容。
二、不同列名的DataFrame拼接
当我们需要将两个不同列名的DataFrame进行拼接时,可以使用merge()函数。merge()函数是基于关键字拼接的。关键字可以通过left_on和right_on参数指定。
下面是一个示例:
import pandas as pd df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3']}) df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}) result = pd.merge(df1, df2, on='key') print(result)
上面的代码中,我们创建了两个DataFrame(df1和df2),然后使用merge()函数按照关键字‘key’拼接这两个DataFrame,并将结果存储在result变量中。最后我们输出result的内容。
三、多个不同列名的DataFrame拼接
当我们需要将多个不同列名的DataFrame进行拼接时,可以使用merge()函数嵌套连接。先用merge()函数将前两个DataFrame拼接,然后再将拼接后的结果与下一个DataFrame拼接。这样循环拼接下去,就可以将多个DataFrame拼接成一个新的DataFrame。
下面是一个示例:
import pandas as pd df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3']}) df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}) df3 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'E': ['E0', 'E1', 'E2', 'E3'], 'F': ['F0', 'F1', 'F2', 'F3']}) result = pd.merge(pd.merge(df1, df2, on='key'), df3, on='key') print(result)
上面的代码中,我们创建了三个DataFrame(df1、df2和df3),然后使用merge()函数将df1和df2按照关键字‘key’拼接,再将拼接后的结果和df3按照关键字‘key’拼接,并将结果存储在result变量中。最后我们输出result的内容。
四、处理重复列名
当我们拼接的两个DataFrame具有重复的列名时,concat()函数和merge()函数都无法正确处理。为了解决这个问题,我们可以使用suffixes参数来指定每个重复列名的后缀。
下面是一个示例:
import pandas as pd df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3']}) df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'A': ['A4', 'A5', 'A6', 'A7'], 'B': ['B4', 'B5', 'B6', 'B7']}) result = pd.merge(df1, df2, on='key', suffixes=('_left', '_right')) print(result)
上面的代码中,我们创建了两个DataFrame(df1和df2),df1和df2具有相同的列名‘A’和‘B’。我们使用merge()函数按照关键字‘key’拼接这两个DataFrame,并通过suffixes参数指定‘A’和‘B’列名的后缀,以区分这两个重复列名。最后我们输出拼接后的结果。
五、使用join()函数
另一种常用的数据拼接函数是join()函数,它类似于merge()函数,也是基于关键字拼接的。不同的是,join()函数是DataFrame的成员函数,主要用于按照DataFrame索引进行连接。
下面是一个示例:
import pandas as pd df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3']}, index=['K0', 'K1', 'K2', 'K3']) df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}, index=['K0', 'K1', 'K2', 'K3']) result = df1.join(df2) print(result)
上面的代码中,我们创建了两个DataFrame(df1和df2),它们具有相同的索引。我们使用join()函数按照索引拼接这两个DataFrame,并将结果存储在result变量中。最后我们输出result的内容。
原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/236899.html