pandas value_counts詳解

在數據分析和處理中,pandas是一個非常常用且有效的工具。而其中的value_counts函數則是特別常用的一個函數。本文將從不同的方面詳細介紹pandas的value_counts函數,以幫助大家更好地理解和運用它。

一、基礎用法

import pandas as pd
data = pd.DataFrame({'A': [1, 1, 2, 3, 4],
                     'B': ['a', 'b', 'a', 'c', 'c']})
data['A'].value_counts()

輸出:
1    2
4    1
3    1
2    1
Name: A, dtype: int64

value_counts函數可以統計一列數據中不同值的個數。如以上代碼所示,data[‘A’].value_counts()可以得到A列中每種不同數值出現的次數和對應的索引。

二、排序

data['B'].value_counts(sort=True)

輸出:
a    2
c    2
b    1
Name: B, dtype: int64

value_counts默認是按照數值的出現次數倒序排序的。如果想按照升序排序,可以設置sort=False。具體代碼如下:

data['B'].value_counts(sort=False)

輸出:
b    1
a    2
c    2
Name: B, dtype: int64

三、缺失值處理

data['C'] = [1, None, 3, 4, 5]
data['C'].value_counts()

輸出:
5.0    1
4.0    1
3.0    1
1.0    1
Name: C, dtype: int64

value_counts函數可以處理缺失值NaN。如以上代碼所示,在數據中添加了缺失值後,執行data[‘C’].value_counts(),得到了不同數值出現的次數。其中,缺失值NaN沒有被計算在內。

四、normalize參數

data['B'].value_counts(normalize=True)

輸出:
a    0.4
c    0.4
b    0.2
Name: B, dtype: float64

normalize參數可以計算每種數值出現的頻率。設置normalize=True後,除以了總行數,將出現次數轉化為了頻率。

五、bins參數

import numpy as np
data['D'] = np.random.randint(0, 100, size=30)

輸出:
    A  B     C   D
0   1  a   1.0  97
1   1  b   NaN  62
2   2  a   3.0  17
3   3  c   4.0  37
4   4  c   5.0  38

data['D'].value_counts(bins=5, sort=False)

輸出:
(-0.099, 19.8]     6
(19.8, 39.6]       7
(39.6, 59.4]       2
(59.4, 79.2]       5
(79.2, 99.0]      10
Name: D, dtype: int64

值得注意的是,bins參數是把所有的數值按照指定區間劃分,然後統計每個區間中數值出現的次數。由於只有一個區間包含了批量數據,因此一些區間是空的,其返回Series也沒有顯示這些空的區間。

六、多列數據的用法

data.groupby(['A', 'B']).size()

輸出:
A  B
1  a    1
   b    1
2  a    1
3  c    1
4  c    1
dtype: int64

對於多列數據,可以使用groupby函數進行分組統計,例如以上代碼是按照A列和B列對數據進行了分組,然後使用size函數統計了每種組合出現的次數。

七、apply和lambda函數

data['E'] = data['D'].apply(lambda x: x % 10)
data['E'].value_counts()

輸出:
7    6
6    4
2    4
1    3
0    3
8    2
9    2
5    2
4    1
3    1
Name: E, dtype: int64

apply函數使用lambda函數將每個元素取模,得到每個元素的個位數。然後使用value_counts函數獲取每個數字出現的次數。

八、結語

綜上所述,本文從基礎用法、排序、缺失值處理、normalize參數、bins參數、多列數據的用法、apply和lambda函數七個方面詳細介紹了pandas value_counts函數的使用方法。對於數據分析和處理工作中,使用這個函數能夠更高效地取出數據中的信息。

原創文章,作者:JVPP,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/149583.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
JVPP的頭像JVPP
上一篇 2024-11-05 16:53
下一篇 2024-11-05 16:53

相關推薦

  • Pandas下載whl指南

    本篇文章將從幾個方面為大家詳細解答如何下載Pandas的whl文件。 一、Pandas簡介 Pandas是一個基於Python的軟體庫,主要用於數據分析、清洗和處理。在數據處理方面…

    編程 2025-04-28
  • 如何在Python中安裝和使用Pandas

    本文將介紹如何安裝和使用Python的Pandas庫 一、Pandas庫的介紹 Pandas是Python的一個數據分析庫,提供了許多實用的數據結構和數據分析工具,可以幫助用戶輕鬆…

    編程 2025-04-27
  • 神經網路代碼詳解

    神經網路作為一種人工智慧技術,被廣泛應用於語音識別、圖像識別、自然語言處理等領域。而神經網路的模型編寫,離不開代碼。本文將從多個方面詳細闡述神經網路模型編寫的代碼技術。 一、神經網…

    編程 2025-04-25
  • Linux sync詳解

    一、sync概述 sync是Linux中一個非常重要的命令,它可以將文件系統緩存中的內容,強制寫入磁碟中。在執行sync之前,所有的文件系統更新將不會立即寫入磁碟,而是先緩存在內存…

    編程 2025-04-25
  • 詳解eclipse設置

    一、安裝與基礎設置 1、下載eclipse並進行安裝。 2、打開eclipse,選擇對應的工作空間路徑。 File -> Switch Workspace -> [選擇…

    編程 2025-04-25
  • Python安裝OS庫詳解

    一、OS簡介 OS庫是Python標準庫的一部分,它提供了跨平台的操作系統功能,使得Python可以進行文件操作、進程管理、環境變數讀取等系統級操作。 OS庫中包含了大量的文件和目…

    編程 2025-04-25
  • Linux修改文件名命令詳解

    在Linux系統中,修改文件名是一個很常見的操作。Linux提供了多種方式來修改文件名,這篇文章將介紹Linux修改文件名的詳細操作。 一、mv命令 mv命令是Linux下的常用命…

    編程 2025-04-25
  • Python輸入輸出詳解

    一、文件讀寫 Python中文件的讀寫操作是必不可少的基本技能之一。讀寫文件分別使用open()函數中的’r’和’w’參數,讀取文件…

    編程 2025-04-25
  • nginx與apache應用開發詳解

    一、概述 nginx和apache都是常見的web伺服器。nginx是一個高性能的反向代理web伺服器,將負載均衡和緩存集成在了一起,可以動靜分離。apache是一個可擴展的web…

    編程 2025-04-25
  • MPU6050工作原理詳解

    一、什麼是MPU6050 MPU6050是一種六軸慣性感測器,能夠同時測量加速度和角速度。它由三個感測器組成:一個三軸加速度計和一個三軸陀螺儀。這個組合提供了非常精細的姿態解算,其…

    編程 2025-04-25

發表回復

登錄後才能評論