pandas計數技巧介紹

pandas是Python數據處理的常用模塊之一，提供了非常方便的操作方式，許多人都用過pandas計數功能，但是它的使用技巧卻不為人所知。本文將從多個方面介紹pandas計數技巧。

在進行數據分析時，我們需要計算某一個字段的唯一值數量，這時候就需要使用pandas計數un方法來進行計算。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名稱'].nunique())

以上代碼使用nunique()方法來計算某一個字段的唯一值數量。

經常需要把一個數據集按照某個特徵分組，然後看看每個特徵包含多少個數據。pandas的value_counts方法可以非常方便的進行計數分類。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名稱'].value_counts())

以上代碼使用value_counts()方法對某一個字段進行計數分類。

有時候我們需要得到某一列不重複的數據統計，亦稱為去重計數。pandas提供了drop_duplicates()方法來進行操作。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(len(df['字段名稱'].drop_duplicates()))

以上代碼使用drop_duplicates()方法對某一個字段進行去重計數。

如果要對多個字段進行計數統計，可以使用apply()方法。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df[['字段1','字段2']].apply(pd.value_counts))

以上代碼使用apply()方法統計了字段1和字段2的數據出現次數。

有時候我們需要對數據進行條件篩選後再計數，可以使用pandas的query()方法。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.query('字段1 == "條件1"')['字段2'].value_counts())

以上代碼使用query()方法對字段1為條件1的數據，統計取出字段2的數量。

在進行數據處理時，輸出的數字可能會出現科學計數法的形式。使用set_option()方法可以取消科學計數法，並顯示完整的數字。


import pandas as pd
pd.set_option('display.float_format', lambda x: '%.6f' % x)
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名稱'])

以上代碼通過set_option()方法取消了科學計數法，並輸出了完整的數字。

在pandas中，有很多方法可以進行計數操作。比如：crosstab(),groupby(),pivot_table(),stack()等等。通過學習這些方法，可以更好地完成數據分析和處理工作。

在進行數據分析時，經常需要對數據集合進行去重操作，可以使用pandas的drop_duplicates()方法。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.drop_duplicates())

以上代碼使用drop_duplicates()方法對整個數據集進行了去重操作。

在進行數據分析時，有時需要計算不同列之間的相關係數。可以使用pandas的corr()方法來得到相關係數矩陣。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.corr())

以上代碼使用corr()方法計算不同列之間的相關係數矩陣。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/237153.html