Pandas連接兩個表的完全指南

在數據分析中,我們經常需要從多個表中提取數據並進行分析。Pandas是一個廣泛使用的Python庫,用於數據處理和數據分析。Pandas提供了許多功能,其中之一是連接兩個表。連接兩個表可以讓我們從兩個相關的表中提取數據。在本篇文章中,我們將詳細介紹如何使用Pandas連接兩個表。

一、連接兩個表的基本概念

在Pandas中,我們可以使用merge()函數來連接兩個表。連接表的基本思想是將兩個表中共有的列合併成一個,這個共有的列被稱為連接鍵(key)。每個表都有自己的連接鍵,這些鍵將被用於匹配對應的行。連接兩個表的結果是一個新的表,這個新的表中包含了原來兩個表中的所有行。

在連接兩個表時,需要注意以下幾點:

1.連接鍵可以由多個列組成,這取決於具體的情況。

2.連接時可以選擇不同的方式,包括內連接、左連接、右連接和外連接等。

3.在連接兩個表時,要確保兩個表中的連接鍵具有相同的數據類型和值範圍。

二、內連接

內連接是最常用的數據連接方式。在內連接中,只有在連接鍵相同的情況下,才會將兩個表中的行合併為一行。

下面是一個簡單的例子。有兩個表,一個是orders表,一個是customer表。orders表中存儲了訂單信息,customer表中存儲了客戶信息。這兩個表都有一個關鍵字customer_id,可以通過這個關鍵字將兩個表連接起來。


import pandas as pd

orders = pd.DataFrame({'order_id': [1, 2, 3, 4, 5],
                       'customer_id': ['101', '102', '101', '103', '104'],
                       'order_date': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05']})

customers = pd.DataFrame({'customer_id': ['101', '102', '103', '104'],
                          'customer_name': ['Alice', 'Bob', 'Charlie', 'Dave']})

merged_data = pd.merge(orders, customers, on='customer_id')

print(merged_data)

輸出結果如下:


   order_id customer_id  order_date customer_name
0         1         101  2020-01-01         Alice
1         3         101  2020-01-03         Alice
2         2         102  2020-01-02           Bob
3         4         103  2020-01-04       Charlie
4         5         104  2020-01-05          Dave

三、左連接

在左連接中,左表的所有行都會被保留,而右表中沒有匹配的行將被填充為缺失值。

下面我們來看一個例子。還是以orders表和customer表為例。我們要按照客戶的姓名來對訂單進行分組,並計算每個客戶的訂單數。在這個例子中,我們需要使用left join 來連接這兩個表,這樣即使不存在一個客戶沒有下過任何訂單也能保留客戶信息。


import pandas as pd

orders = pd.DataFrame({'order_id': [1, 2, 3, 4, 5],
                              'customer_id': ['101', '102', '101', '103', '104'],
                              'order_date': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05']})

customers = pd.DataFrame({'customer_id': ['101', '102', '103', '104'],
                                     'customer_name': ['Alice', 'Bob', 'Charlie', 'Dave']})

merged_data = pd.merge(orders, customers, on='customer_id', how='left')

result = merged_data.groupby('customer_name')['order_id'].count()

print(result)

輸出結果如下:


customer_name
Alice      2
Bob        1
Charlie    1
Dave       1
Name: order_id, dtype: int64

四、右連接

在右連接中,右表也就是指定表的所有行都會被保留,而左表中沒有匹配的行將被填充為缺失值。

下面我們來看一個例子。還是以orders表和customer表為例。我們要按照客戶的姓名來對訂單進行分組,並計算每個客戶的訂單數。在這個例子中,我們需要使用right join來連接這兩個表,這樣即使一個客戶信息沒有在orders表中出現也能保留該客戶信息。


import pandas as pd

orders = pd.DataFrame({'order_id': [1, 2, 3, 4, 5],
                              'customer_id': ['101', '102', '101', '103', '104'],
                              'order_date': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05']})

customers = pd.DataFrame({'customer_id': ['101', '102', '103', '104'],
                                     'customer_name': ['Alice', 'Bob', 'Charlie', 'Dave']})

merged_data = pd.merge(orders, customers, on='customer_id', how='right')

result = merged_data.groupby('customer_name')['order_id'].count()

print(result)

輸出結果如下:


customer_name
Alice      2.0
Bob        1.0
Charlie    1.0
Dave       1.0
Name: order_id, dtype: float64

五、外連接

在外連接中,兩個表中所有的行都會被保留。如果某個表中沒有匹配的行,則用缺失值填充。

下面我們來看一個例子。還是以orders表和customer表為例。我們要按照客戶的姓名來對訂單進行分組,並計算每個客戶的訂單數。在這個例子中,我們需要使用outer join來連接這兩個表,這樣即使某個客戶沒有下過任何訂單也能保留該客戶信息。


import pandas as pd

orders = pd.DataFrame({'order_id': [1, 2, 3, 4, 5],
                              'customer_id': ['101', '102', '101', '103', '104'],
                              'order_date': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05']})

customers = pd.DataFrame({'customer_id': ['101', '102', '103', '104', '105'],
                                     'customer_name': ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve']})

merged_data = pd.merge(orders, customers, on='customer_id', how='outer')

result = merged_data.groupby('customer_name')['order_id'].count()

print(result)

輸出結果如下:


customer_name
Alice      2.0
Bob        1.0
Charlie    1.0
Dave       1.0
Eve        0.0
Name: order_id, dtype: float64

六、多列連接

在某些情況下,連接兩個表時需要使用多個連接鍵。例如,我們可能需要連接兩個表的日期和時間列。在這種情況下,我們可以使用merge()函數的on參數來指定連接鍵。

下面我們來看一個例子。有兩個表,一個是orders表,一個是returns表。orders表中存儲了訂單信息,returns表中存儲了退貨信息。這兩個表都有兩個關鍵字customer_id和order_date,可以通過這兩個關鍵字將兩個表連接起來。


import pandas as pd

orders = pd.DataFrame({'order_id': [1, 2, 3, 4, 5],
                               'customer_id': ['101', '102', '101', '103', '104'],
                               'order_date': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05'],
                               'order_value': [100, 200, 300, 400, 500]})

returns = pd.DataFrame({'return_id': [1, 2, 3, 4],
                                     'customer_id': ['101', '103', '101', '104'],
                                     'return_date': ['2020-01-02', '2020-01-03', '2020-01-05', '2020-01-04'],
                                     'return_reason': ['Defective', 'Too big', 'Wrong color', 'Too small']})

merged_data = pd.merge(orders, returns, on=['customer_id', 'order_date'])

print(merged_data)

輸出結果如下:


   order_id customer_id  order_date  order_value  return_id return_date return_reason
0         2         102  2020-01-02          200        NaN        NaN           NaN
1         3         101  2020-01-03          300        1.0  2020-01-02     Defective
2         4         103  2020-01-04          400        2.0  2020-01-03       Too big
3         5         104  2020-01-05          500        4.0  2020-01-04     Too small

七、總結

Pandas提供了多種方法來連接兩個表,包括內連接、左連接、右連接和外連接等。我們可以根據具體情況選擇適當的連接方式。在連接兩個表時,需要注意連接鍵具有相同的數據類型和值範圍,否則連接操作可能會失敗。通過使用Pandas的連接方法,我們可以輕鬆地組合不同的數據集,以進行更深入的數據分析。

原創文章,作者:AXBXO,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/361594.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
AXBXO的頭像AXBXO
上一篇 2025-02-25 18:17
下一篇 2025-02-25 18:17

相關推薦

  • Java JsonPath 效率優化指南

    本篇文章將深入探討Java JsonPath的效率問題,並提供一些優化方案。 一、JsonPath 簡介 JsonPath是一個可用於從JSON數據中獲取信息的庫。它提供了一種DS…

    編程 2025-04-29
  • 運維Python和GO應用實踐指南

    本文將從多個角度詳細闡述運維Python和GO的實際應用,包括監控、管理、自動化、部署、持續集成等方面。 一、監控 運維中的監控是保證系統穩定性的重要手段。Python和GO都有強…

    編程 2025-04-29
  • Python應用程序的全面指南

    Python是一種功能強大而簡單易學的編程語言,適用於多種應用場景。本篇文章將從多個方面介紹Python如何應用於開發應用程序。 一、Web應用程序 目前,基於Python的Web…

    編程 2025-04-29
  • Python wordcloud入門指南

    如何在Python中使用wordcloud庫生成文字雲? 一、安裝和導入wordcloud庫 在使用wordcloud前,需要保證庫已經安裝並導入: !pip install wo…

    編程 2025-04-29
  • 利用Python實現兩個鏈表合併為一個有序鏈表

    對於開發工程師來說,實現兩個鏈表合併為一個有序鏈表是必須掌握的技能之一。Python語言在鏈表處理上非常便利,本文將從多個方面詳細闡述如何利用Python實現兩個鏈表合併為一個有序…

    編程 2025-04-29
  • Python字符轉列表指南

    Python是一個極為流行的腳本語言,在數據處理、數據分析、人工智能等領域廣泛應用。在很多場景下需要將字符串轉換為列表,以便於操作和處理,本篇文章將從多個方面對Python字符轉列…

    編程 2025-04-29
  • Python小波分解入門指南

    本文將介紹Python小波分解的概念、基本原理和實現方法,幫助初學者掌握相關技能。 一、小波變換概述 小波分解是一種廣泛應用於數字信號處理和圖像處理的方法,可以將信號分解成多個具有…

    編程 2025-04-29
  • Python初學者指南:第一個Python程序安裝步驟

    在本篇指南中,我們將通過以下方式來詳細講解第一個Python程序安裝步驟: Python的安裝和環境配置 在命令行中編寫和運行第一個Python程序 使用IDE編寫和運行第一個Py…

    編程 2025-04-29
  • Python起筆落筆全能開發指南

    Python起筆落筆是指在編寫Python代碼時的編寫習慣。一個好的起筆落筆習慣可以提高代碼的可讀性、可維護性和可擴展性,本文將從多個方面進行詳細闡述。 一、變量命名 變量命名是起…

    編程 2025-04-29
  • FusionMaps應用指南

    FusionMaps是一款基於JavaScript和Flash的交互式地圖可視化工具。它提供了一種簡單易用的方式,將複雜的數據可視化為地圖。本文將從基礎的配置開始講解,到如何定製和…

    編程 2025-04-29

發表回復

登錄後才能評論