使用Pandas進行數據重塑的完整指南

一、基本數據結構

Pandas中的兩個主要數據結構是Series和DataFrame。 Series是一個一維標記數組,可以保存任何數據類型。 DataFrame是具有行和列標籤的二維表格,可以保存多種類型的數據。 在本指南中,我們將重點關注面向DataFrame的維度重塑。

以下是如何創建Series和DataFrame的示例代碼:

import pandas as pd

# 創建Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

# 創建DataFrame
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})

在以上代碼中,我們使用了NumPy中的NaN值來表示缺失的值。此外,我們還使用了`np.random.randn()`函數來生成隨機數據,以便我們更好地理解如何進行數據重塑。

二、重塑操作

1. 堆疊和取消堆疊

堆疊是指將DataFrame中的列壓縮到較小的行中。 取消堆疊是指將已壓縮的行重新擴展為列。 以下是如何使用`stack()`和`unstack()`方法執行這些操作的示例:

# 創建一個df
df = pd.DataFrame({'學生': ['小明', '小明', '小紅', '小紅'],
                   '科目': ['數學', '語文', '數學', '語文'],
                   '成績': [90, 88, 92, 85]})

# 堆疊操作
stacked_df = df.set_index(['學生', '科目']).stack()
stacked_df

# 取消堆疊操作
unstacked_df = stacked_df.unstack()
unstacked_df

在以上示例中,我們首先創建了一個包含學生姓名、科目和成績的DataFrame。然後,我們使用`set_index()`方法將學生姓名和科目設置為索引,並使用`stack()`方法將列堆疊成行。最後,我們使用`unstack()`方法將已堆疊的行重新擴展為列。

2. 透視表

透視表是一種根據數據中的值來匯總數據的方法。可以使用Pandas中的`pivot_table()`函數輕鬆創建透視表。以下是一個示例代碼:

# 創建數據
data = {'省份': ['江蘇', '江蘇', '山東', '山東', '廣東'],
        '城市': ['南京', '蘇州', '濟南', '青島', '廣州'],
        '銷售額': [100, 200, 150, 180, 120]}

df = pd.DataFrame(data)

# 創建透視表
pivot_table = pd.pivot_table(df, 
                             values='銷售額', 
                             index='省份', 
                             columns='城市')

pivot_table

在以上代碼中,我們首先創建了一個包含省份、城市和銷售額的DataFrame。然後,使用`pivot_table()`函數創建了一個透視表。在`pivot_table()`函數中,我們指定要聚合的值、行和列。

3. 重命名列名

重命名列名是一項非常常見的操作。 在Pandas中,我們可以使用`rename()`方法來重命名DataFrame的列名。 以下是一個示例:

# 創建一個df
df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [4, 5, 6]})

# 重命名列名
df.rename(columns={'A': '新A', 'B': '新B'}, inplace=True)
df

在以上代碼中,我們首先創建了一個包含’A’和’B’列的DataFrame。然後,使用`rename()`方法將列’A’和’B’重命名為’新A’和’新B’。

4. 刪除列和行

時不時需要刪除DataFrame中的列和行。 我們可以使用`drop()`方法來刪除列和行。以下是一個示例:

# 創建一個df
df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [4, 5, 6],
                   'C': [7, 8, 9]})

# 刪除列
df.drop('C', axis=1, inplace=True)

# 刪除行
df.drop(0, inplace=True)
df

在以上代碼中,我們首先創建了一個包含三列的DataFrame。然後,使用`drop()`方法刪除了列’C’和第一行。

5. 數據類型轉換

有時需要將DataFrame中的數據類型從一個類型轉換為另一個類型。 在Pandas中,我們可以使用`astype()`方法來實現轉換。 以下是示例:

# 創建一個df
df = pd.DataFrame({'A': [1, 2, 3],
                   'B': ['4', '5', '6']})

# 將'B'列的類型從str轉換為int
df['B'] = df['B'].astype(int)
df.dtypes

在以上代碼中,我們首先創建了一個包含’A’和’B’列的DataFrame,其中’B’列的類型為str。然後,使用`astype()`方法將’B’列的類型從str轉換為int。

三、總結

使用Pandas進行數據重塑是數據分析和數據處理中非常常見的操作。在本指南中,我們介紹了如何使用Pandas進行數據重塑:堆疊和取消堆疊,透視表,重命名列名,刪除列和行,以及數據類型轉換。掌握這些技能可以幫助您更好地理解、分析和處理數據。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/152617.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-11-13 06:05
下一篇 2024-11-13 06:05

相關推薦

  • Java JsonPath 效率優化指南

    本篇文章將深入探討Java JsonPath的效率問題,並提供一些優化方案。 一、JsonPath 簡介 JsonPath是一個可用於從JSON數據中獲取信息的庫。它提供了一種DS…

    編程 2025-04-29
  • 運維Python和GO應用實踐指南

    本文將從多個角度詳細闡述運維Python和GO的實際應用,包括監控、管理、自動化、部署、持續集成等方面。 一、監控 運維中的監控是保證系統穩定性的重要手段。Python和GO都有強…

    編程 2025-04-29
  • Python讀取CSV數據畫散點圖

    本文將從以下方面詳細闡述Python讀取CSV文件並畫出散點圖的方法: 一、CSV文件介紹 CSV(Comma-Separated Values)即逗號分隔值,是一種存儲表格數據的…

    編程 2025-04-29
  • Python wordcloud入門指南

    如何在Python中使用wordcloud庫生成文字雲? 一、安裝和導入wordcloud庫 在使用wordcloud前,需要保證庫已經安裝並導入: !pip install wo…

    編程 2025-04-29
  • Python應用程序的全面指南

    Python是一種功能強大而簡單易學的編程語言,適用於多種應用場景。本篇文章將從多個方面介紹Python如何應用於開發應用程序。 一、Web應用程序 目前,基於Python的Web…

    編程 2025-04-29
  • Python小波分解入門指南

    本文將介紹Python小波分解的概念、基本原理和實現方法,幫助初學者掌握相關技能。 一、小波變換概述 小波分解是一種廣泛應用於數字信號處理和圖像處理的方法,可以將信號分解成多個具有…

    編程 2025-04-29
  • 打造照片漫畫生成器的完整指南

    本文將分享如何使用Python編寫一個簡單的照片漫畫生成器,本文所提到的所有代碼和技術都適用於初學者。 一、環境準備 在開始編寫代碼之前,我們需要準備一些必要的環境。 首先,需要安…

    編程 2025-04-29
  • 如何在Java中拼接OBJ格式的文件並生成完整的圖像

    OBJ格式是一種用於表示3D對象的標準格式,通常由一組頂點、面和紋理映射坐標組成。在本文中,我們將討論如何將多個OBJ文件拼接在一起,生成一個完整的3D模型。 一、讀取OBJ文件 …

    編程 2025-04-29
  • Python字元轉列表指南

    Python是一個極為流行的腳本語言,在數據處理、數據分析、人工智慧等領域廣泛應用。在很多場景下需要將字元串轉換為列表,以便於操作和處理,本篇文章將從多個方面對Python字元轉列…

    編程 2025-04-29
  • Python中讀入csv文件數據的方法用法介紹

    csv是一種常見的數據格式,通常用於存儲小型數據集。Python作為一種廣泛流行的編程語言,內置了許多操作csv文件的庫。本文將從多個方面詳細介紹Python讀入csv文件的方法。…

    編程 2025-04-29

發表回復

登錄後才能評論