Python DataFrame数据拼接技巧分享

一、基础拼接技巧

当我们需要将两个DataFrame进行拼接时,可以使用concat()函数来实现。concat()函数接受一个列表作为参数,列表中包含需要拼接的DataFrame。

concat()函数的第一个参数是需要拼接的DataFrame列表。第二个参数是指定拼接的轴,axis=0表示按行拼接,axis=1表示按列拼接。默认为axis=0。

下面是一个示例:

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']})

result = pd.concat([df1, df2], axis=0)
print(result)

上面的代码中,我们创建了两个DataFrame(df1和df2),然后使用concat()函数按行拼接这两个DataFrame,并将结果存储在result变量中。最后我们输出result的内容。

二、不同列名的DataFrame拼接

当我们需要将两个不同列名的DataFrame进行拼接时,可以使用merge()函数。merge()函数是基于关键字拼接的。关键字可以通过left_on和right_on参数指定。

下面是一个示例:

import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

result = pd.merge(df1, df2, on='key')
print(result)

上面的代码中,我们创建了两个DataFrame(df1和df2),然后使用merge()函数按照关键字‘key’拼接这两个DataFrame,并将结果存储在result变量中。最后我们输出result的内容。

三、多个不同列名的DataFrame拼接

当我们需要将多个不同列名的DataFrame进行拼接时,可以使用merge()函数嵌套连接。先用merge()函数将前两个DataFrame拼接,然后再将拼接后的结果与下一个DataFrame拼接。这样循环拼接下去,就可以将多个DataFrame拼接成一个新的DataFrame。

下面是一个示例:

import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

df3 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'E': ['E0', 'E1', 'E2', 'E3'],
                    'F': ['F0', 'F1', 'F2', 'F3']})

result = pd.merge(pd.merge(df1, df2, on='key'), df3, on='key')
print(result)

上面的代码中,我们创建了三个DataFrame(df1、df2和df3),然后使用merge()函数将df1和df2按照关键字‘key’拼接,再将拼接后的结果和df3按照关键字‘key’拼接,并将结果存储在result变量中。最后我们输出result的内容。

四、处理重复列名

当我们拼接的两个DataFrame具有重复的列名时,concat()函数和merge()函数都无法正确处理。为了解决这个问题,我们可以使用suffixes参数来指定每个重复列名的后缀。

下面是一个示例:

import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7']})

result = pd.merge(df1, df2, on='key', suffixes=('_left', '_right'))
print(result)

上面的代码中,我们创建了两个DataFrame(df1和df2),df1和df2具有相同的列名‘A’和‘B’。我们使用merge()函数按照关键字‘key’拼接这两个DataFrame,并通过suffixes参数指定‘A’和‘B’列名的后缀,以区分这两个重复列名。最后我们输出拼接后的结果。

五、使用join()函数

另一种常用的数据拼接函数是join()函数,它类似于merge()函数,也是基于关键字拼接的。不同的是,join()函数是DataFrame的成员函数,主要用于按照DataFrame索引进行连接。

下面是一个示例:

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']},
                   index=['K0', 'K1', 'K2', 'K3'])

df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=['K0', 'K1', 'K2', 'K3'])

result = df1.join(df2)
print(result)

上面的代码中,我们创建了两个DataFrame(df1和df2),它们具有相同的索引。我们使用join()函数按照索引拼接这两个DataFrame,并将结果存储在result变量中。最后我们输出result的内容。

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/236899.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2024-12-12 12:02
下一篇 2024-12-12 12:02

相关推荐

  • Python计算阳历日期对应周几

    本文介绍如何通过Python计算任意阳历日期对应周几。 一、获取日期 获取日期可以通过Python内置的模块datetime实现,示例代码如下: from datetime imp…

    编程 2025-04-29
  • 如何查看Anaconda中Python路径

    对Anaconda中Python路径即conda环境的查看进行详细的阐述。 一、使用命令行查看 1、在Windows系统中,可以使用命令提示符(cmd)或者Anaconda Pro…

    编程 2025-04-29
  • Python周杰伦代码用法介绍

    本文将从多个方面对Python周杰伦代码进行详细的阐述。 一、代码介绍 from urllib.request import urlopen from bs4 import Bea…

    编程 2025-04-29
  • Python列表中负数的个数

    Python列表是一个有序的集合,可以存储多个不同类型的元素。而负数是指小于0的整数。在Python列表中,我们想要找到负数的个数,可以通过以下几个方面进行实现。 一、使用循环遍历…

    编程 2025-04-29
  • Python中引入上一级目录中函数

    Python中经常需要调用其他文件夹中的模块或函数,其中一个常见的操作是引入上一级目录中的函数。在此,我们将从多个角度详细解释如何在Python中引入上一级目录的函数。 一、加入环…

    编程 2025-04-29
  • python强行终止程序快捷键

    本文将从多个方面对python强行终止程序快捷键进行详细阐述,并提供相应代码示例。 一、Ctrl+C快捷键 Ctrl+C快捷键是在终端中经常用来强行终止运行的程序。当你在终端中运行…

    编程 2025-04-29
  • Python清华镜像下载

    Python清华镜像是一个高质量的Python开发资源镜像站,提供了Python及其相关的开发工具、框架和文档的下载服务。本文将从以下几个方面对Python清华镜像下载进行详细的阐…

    编程 2025-04-29
  • Python程序需要编译才能执行

    Python 被广泛应用于数据分析、人工智能、科学计算等领域,它的灵活性和简单易学的性质使得越来越多的人喜欢使用 Python 进行编程。然而,在 Python 中程序执行的方式不…

    编程 2025-04-29
  • Python字典去重复工具

    使用Python语言编写字典去重复工具,可帮助用户快速去重复。 一、字典去重复工具的需求 在使用Python编写程序时,我们经常需要处理数据文件,其中包含了大量的重复数据。为了方便…

    编程 2025-04-29
  • 蝴蝶优化算法Python版

    蝴蝶优化算法是一种基于仿生学的优化算法,模仿自然界中的蝴蝶进行搜索。它可以应用于多个领域的优化问题,包括数学优化、工程问题、机器学习等。本文将从多个方面对蝴蝶优化算法Python版…

    编程 2025-04-29

发表回复

登录后才能评论