pandas是Python數據處理的常用模塊之一,提供了非常方便的操作方式,許多人都用過pandas計數功能,但是它的使用技巧卻不為人所知。本文將從多個方面介紹pandas計數技巧。
一、pandas計數un
在進行數據分析時,我們需要計算某一個字段的唯一值數量,這時候就需要使用pandas計數un方法來進行計算。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名稱'].nunique())
以上代碼使用nunique()方法來計算某一個字段的唯一值數量。
二、pandas分類計數
經常需要把一個數據集按照某個特徵分組,然後看看每個特徵包含多少個數據。pandas的value_counts方法可以非常方便的進行計數分類。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名稱'].value_counts())
以上代碼使用value_counts()方法對某一個字段進行計數分類。
三、pandas計數某列不重複
有時候我們需要得到某一列不重複的數據統計,亦稱為去重計數。pandas提供了drop_duplicates()方法來進行操作。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(len(df['字段名稱'].drop_duplicates()))
以上代碼使用drop_duplicates()方法對某一個字段進行去重計數。
四、pandas計數函數
如果要對多個字段進行計數統計,可以使用apply()方法。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df[['字段1','字段2']].apply(pd.value_counts))
以上代碼使用apply()方法統計了字段1和字段2的數據出現次數。
五、pandas計數符合條件
有時候我們需要對數據進行條件篩選後再計數,可以使用pandas的query()方法。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.query('字段1 == "條件1"')['字段2'].value_counts())
以上代碼使用query()方法對字段1為條件1的數據,統計取出字段2的數量。
六、pandas取消科學計數
在進行數據處理時,輸出的數字可能會出現科學計數法的形式。使用set_option()方法可以取消科學計數法,並顯示完整的數字。
import pandas as pd
pd.set_option('display.float_format', lambda x: '%.6f' % x)
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名稱'])
以上代碼通過set_option()方法取消了科學計數法,並輸出了完整的數字。
七、pandas技術介紹
在pandas中,有很多方法可以進行計數操作。比如:crosstab(),groupby(),pivot_table(),stack()等等。通過學習這些方法,可以更好地完成數據分析和處理工作。
八、pandas去重計數
在進行數據分析時,經常需要對數據集合進行去重操作,可以使用pandas的drop_duplicates()方法。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.drop_duplicates())
以上代碼使用drop_duplicates()方法對整個數據集進行了去重操作。
九、pandas計算相關係數
在進行數據分析時,有時需要計算不同列之間的相關係數。可以使用pandas的corr()方法來得到相關係數矩陣。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.corr())
以上代碼使用corr()方法計算不同列之間的相關係數矩陣。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/237153.html