探索pandas手冊

一、理解Pandas

Pandas是Python中非常流行的一種數據處理庫。它可以處理如同Excel或SQL表格一樣的數據集，並提供了非常豐富的數據分析、操作及可視化功能。同時，它也提供了強大的數據結構和靈活的數據操作，是Python科學計算、數據處理中最重要的庫之一。

首先需要安裝Pandas，在Python環境下使用pip安裝即可：

    
        pip install pandas

Pandas的數據結構被分為三大類：Series、DataFrame 和 Panel。

Pandas主要針對於表格數據 (如：CSV、TSV 文件或 SQL 表格等) 的操作．在Pandas中，表格數據主要是基於 DataFrame 類構建的。以下是Pandas中DataFrame的各種常用操作。

讀取CSV文件：

    
        import pandas as pd
        df = pd.read_csv('file.csv')
        print(df.head())

讀取Excel文件：

    
        import pandas as pd
        df = pd.read_excel('file.xlsx')
        print(df.head())

在Pandas中，數據索引的方式有兩種，一種是根據位置索引，另一種是根據標籤索引。根據位置索引，使用iloc()方法：

    
        print(df.iloc[0])          # 訪問第一行
        print(df.iloc[0:3])        # 訪問前三行
        print(df.iloc[0][0])       # 訪問第一行第一列的值

根據標籤索引，使用loc()方法：

    
        print(df.loc[0])           # 訪問第一行
        print(df.loc[0:3])         # 訪問前三行
        print(df.loc[0][0])        # 訪問第一行第一列的值

數據過濾是根據一定的條件選擇數據集子集，對於Pandas來說，可以通過布爾索引、query()等方式實現數據過濾。

例如，我們有一個DataFrame數據集df，現在需要過濾出Age > 30 的數據行。可以使用以下代碼實現過濾：

    
        df[df['Age'] > 30]

除此以外，Pandas還可以使用query()函數來實現過濾：

    
        df.query('Age > 30')

在實際數據操作中，我們通常需要對數據集進行聚合操作，例如平均值，總和等統計指標，甚至利用一些自定義函數實現更為複雜的聚合操作。在Pandas中可以利用 groupby() 方法對數據進行聚合操作。

例如，我們有一個DataFrame數據集df，現在需要根據Department對Salary進行分組，並計算各個部門的平均薪資。可以使用以下代碼實現聚合：

    
        df.groupby('Department')['Salary'].mean()

除了豐富的數據處理和操作功能，Pandas也支持多種數據可視化方式，對於數據分析與探索非常的方便。

使用Pandas中的 plot()方法，可以對Series對象實現基本的數據可視化：

    
        import matplotlib.pyplot as plt
        s = pd.Series([1,2,3,4,5])
        s.plot()
        plt.show()

以上代碼將會輸出點圖。可以通過使用kind參數來指定不同的圖形。

Pandas也可以對DataFrame進行可視化操作，使用 plot()方法即可：

    
        df.plot(kind='scatter',x='Salary',y='Age')
        plt.show()

以上代碼可以實現Salary與Age兩列數據的散點圖。

通過以上對Pandas的學習與探索，我們可以發現，Pandas提供了非常豐富的數據操作和可視化功能，非常適用於對數據的分析與探索。如果你需要處理的是類似表格數據的大量數據，Pandas會是你數據處理的利器。希望以上介紹的內容能夠幫助到你。

原創文章，作者：CVMQK，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/351739.html