深入理解unstack

一、unstack翻譯

翻譯意為“取消堆疊”,在數據分析和處理中,指根據某個字段的值,將數據行轉換為數據列。比如在一個表格中,包含了不同年份、月份、銷售金額三個維度的數據,通過unstack可以將不同月份的銷售金額轉換為不同的列,便於進行分析。

二、unstack函數作用

在pandas庫中,unstack是一個重要的數據透視函數。它可以將某個軸上的數據進行透視、重塑和取消堆疊操作,從而可以方便地進行數據展示、分析和可視化。

unstack函數的語法為:df.unstack(level=-1, fill_value=None)

其中,df是待處理的數據表,level是堆疊列的級別,fill_value是NaN值的替換值,默認為None。

三、stack函數選取

unstack函數的逆操作是stack函數,也是一個重要的數據透視函數。與unstack函數相反,它將數據列轉換為數據行。stack函數的語法為:df.stack(level=-1, dropna=True)。其中,df是數據表,level是堆疊列的級別,dropna表示是否去掉NaN值。

四、unstack的使用場景

1、將複合格式的數據進行透視

import pandas as pd

data = {'Weekday': ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday'],
        'City 1': [25, 30, 80, 70, 35, 60],
        'City 2': [30, 35, 70, 60, 40, 65],
        'City 3': [15, 20, 50, 50, 25, 45]}
df = pd.DataFrame(data)
print(df)
#     Weekday  City 1  City 2  City 3
# 0    Monday      25      30      15
# 1   Tuesday      30      35      20
# 2 Wednesday      80      70      50
# 3  Thursday      70      60      50
# 4    Friday      35      40      25
# 5  Saturday      60      65      45

df = df.set_index('Weekday')
print(df)
#           City 1  City 2  City 3
# Weekday                        
# Monday        25      30      15
# Tuesday       30      35      20
# Wednesday     80      70      50
# Thursday      70      60      50
# Friday        35      40      25
# Saturday      60      65      45

df2 = df.unstack()
print(df2)
#        Weekday  
# City 1  Monday       25
#         Tuesday      30
#         Wednesday    80
#         Thursday     70
#         Friday       35
#         Saturday     60
# City 2  Monday       30
#         Tuesday      35
#         Wednesday    70
#         Thursday     60
#         Friday       40
#         Saturday     65
# City 3  Monday       15
#         Tuesday      20
#         Wednesday    50
#         Thursday     50
#         Friday       25
#         Saturday     45

在這個例子中,我們將一個三維的數據表格轉化為了一個二維的數據表格,其中每個城市的每天銷售額變成了該城市和該天的組合,並將原本的三個城市維度變成了三個新的列。

2、多級索引數據的透視

data = pd.read_csv('sales.csv')
print(data)
#     Region      City        Date   Product  Sales
# 0   East   New York  2020/01/01  Product1     10
# 1   East   New York  2020/01/01  Product2     20
# 2   East   New York  2020/01/02  Product1     15
# 3   East   New York  2020/01/02  Product2     25
# 4   East    Boston  2020/01/01  Product1     12
# 5   East    Boston  2020/01/01  Product2     18
# 6   East    Boston  2020/01/02  Product1     16
# 7   East    Boston  2020/01/02  Product2     22
# 8   West  San Fransico  2020/01/01  Product1     8
# 9   West  San Fransico  2020/01/01  Product2     10
# 10  West  San Fransico  2020/01/02  Product1     6
# 11  West  San Fransico  2020/01/02  Product2     15
# 12  West         LA  2020/01/01  Product1     7
# 13  West         LA  2020/01/01  Product2     9
# 14  West         LA  2020/01/02  Product1     4
# 15  West         LA  2020/01/02  Product2     8

df = data[['Region', 'City', 'Product', 'Sales']].set_index(['Region', 'City', 'Product'])
print(df)
#                          Sales
# Region City        Product     
# East   New York    Product1    10
#                    Product2    20
#        Boston      Product1    12
#                    Product2    18
# West   San Fransico Product1     8
#                    Product2    10
#        LA          Product1     7
#                    Product2     9

df2 = df.unstack(['City', 'Product'])
print(df2)
#               Sales                                           
# City         Boston        LA       New York       San Fransico
# Product     Product1 Product2 Product1 Product2     Product1 Product2 Product1 Product2
# Region                                                                                     
# East            12       18          10     20                NaN         NaN           ..          ..                                   ..
# West             ..         ..            ..          ..                  7            9     8        10

在這個例子中,原本一個三元素索引(Region, City, Product)的表格,通過unstack函數分別將City和Product兩個索引拆分為單獨的列,得到了一個四元素索引的表格。這個方式可以將多維度的數據方便地進行展示和分析。

五、總結

本文深入地介紹了unstack函數的作用、語法和使用場景,對於數據分析和處理中的透視、重塑和轉化操作提供了很好的幫助。

總之,unstack函數可以使得數據的展示和處理更加靈活、高效,對於數據分析工作與決策具有非常重要的意義。

原創文章,作者:PVNT,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/148970.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
PVNT的頭像PVNT
上一篇 2024-11-04 17:49
下一篇 2024-11-04 17:49

相關推薦

  • 深入解析Vue3 defineExpose

    Vue 3在開發過程中引入了新的API `defineExpose`。在以前的版本中,我們經常使用 `$attrs` 和` $listeners` 實現父組件與子組件之間的通信,但…

    編程 2025-04-25
  • 深入理解byte轉int

    一、字節與比特 在討論byte轉int之前,我們需要了解字節和比特的概念。字節是計算機存儲單位的一種,通常表示8個比特(bit),即1字節=8比特。比特是計算機中最小的數據單位,是…

    編程 2025-04-25
  • 深入理解Flutter StreamBuilder

    一、什麼是Flutter StreamBuilder? Flutter StreamBuilder是Flutter框架中的一個內置小部件,它可以監測數據流(Stream)中數據的變…

    編程 2025-04-25
  • 深入探討OpenCV版本

    OpenCV是一個用於計算機視覺應用程序的開源庫。它是由英特爾公司創建的,現已由Willow Garage管理。OpenCV旨在提供一個易於使用的計算機視覺和機器學習基礎架構,以實…

    編程 2025-04-25
  • 深入了解scala-maven-plugin

    一、簡介 Scala-maven-plugin 是一個創造和管理 Scala 項目的maven插件,它可以自動生成基本項目結構、依賴配置、Scala文件等。使用它可以使我們專註於代…

    編程 2025-04-25
  • 深入了解LaTeX的腳註(latexfootnote)

    一、基本介紹 LaTeX作為一種排版軟件,具有各種各樣的功能,其中腳註(footnote)是一個十分重要的功能之一。在LaTeX中,腳註是用命令latexfootnote來實現的。…

    編程 2025-04-25
  • 深入了解Python包

    一、包的概念 Python中一個程序就是一個模塊,而一個模塊可以引入另一個模塊,這樣就形成了包。包就是有多個模塊組成的一個大模塊,也可以看做是一個文件夾。包可以有效地組織代碼和數據…

    編程 2025-04-25
  • 深入理解Python字符串r

    一、r字符串的基本概念 r字符串(raw字符串)是指在Python中,以字母r為前綴的字符串。r字符串中的反斜杠(\)不會被轉義,而是被當作普通字符處理,這使得r字符串可以非常方便…

    編程 2025-04-25
  • 深入剖析MapStruct未生成實現類問題

    一、MapStruct簡介 MapStruct是一個Java bean映射器,它通過註解和代碼生成來在Java bean之間轉換成本類代碼,實現類型安全,簡單而不失靈活。 作為一個…

    編程 2025-04-25
  • 深入探討馮諾依曼原理

    一、原理概述 馮諾依曼原理,又稱“存儲程序控制原理”,是指計算機的程序和數據都存儲在同一個存儲器中,並且通過一個統一的總線來傳輸數據。這個原理的提出,是計算機科學發展中的重大進展,…

    編程 2025-04-25

發表回復

登錄後才能評論