如何查看DataFrame的數據類型

DataFrame是Python中pandas庫中的一個數據結構，它是一個二維表格，可以很方便地存儲和處理數據。對於數據處理的初學者來說，在查看DataFrame的數據類型可能會有些難度。但是，只要了解一些基本的概念和方法，就能很輕鬆地查看DataFrame的各列數據類型。

一、使用info()函數查看各列數據類型

在pandas庫中，DataFrame對象提供了info()函數，可以用來查看每一列數據的數量，以及每一列的數據類型和佔用空間大小。

import pandas as pd
df = pd.read_csv('data.csv')
df.info()

運行以上代碼後，命令行或者Jupyter Notebook中會列印出DataFrame的各列數據類型以及佔用空間大小，示例代碼如下：


RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    10 non-null     object 
 1   Age     10 non-null     int64  
 2   Score   10 non-null     float64
dtypes: float64(1), int64(1), object(1)
memory usage: 368.0+ bytes

上述代碼中，我們讀取了一個名為”data.csv”的文件中的數據，並使用info()函數查看了各列的數據類型和佔用空間大小。注意：info()函數只會在DataFrame中存在的列上運行，如果有一列數據全為空，info()函數就不會把它計算在內。

二、使用dtypes查看各列數據類型

除了使用info()函數之外，我們還可以使用dtypes屬性查看DataFrame各列的數據類型。這種方法輸出的結果更加簡潔，僅包括列名和數據類型。

import pandas as pd
df = pd.read_csv('data.csv')
print(df.dtypes)

以上代碼中，我們讀取了名為”data.csv”的文件中的數據，並使用dtypes屬性來查看各列的數據類型。輸出結果如下：

Name      object
Age        int64
Score    float64
dtype: object

上述代碼中，我們可以看到每列的名稱以及相應的數據類型，如Name列的數據類型是object，Age列是int64，Score列是float64。

三、使用select_dtypes()函數選擇某一類型的數據

在pandas庫中，我們還可以使用select_dtypes()函數來選擇一個DataFrame中的某一類型的數據。下面是一個簡單的使用示例：

import pandas as pd
df = pd.read_csv('data.csv')
df.select_dtypes(include=['int64', 'float64'])

以上代碼中，我們讀取了名為”data.csv”的文件中的數據，並使用select_dtypes函數來選擇所有的int64和float64數據類型的行和列。輸出結果如下:

   Age  Score
0   20   90.0
1   30   85.0
2   25   92.5
3   32   87.5
4   28   89.0
5   22   89.5
6   24   92.0
7   26   88.0
8   27   90.5
9   29   91.0

上述代碼中，我們使用select_dtypes()函數選擇出了DataFrame中所有的int64和float64數據類型的行和列，並輸出了選取的數據。

四、使用describe()函數查看數據的分布情況

在pandas庫中，DataFrame對象還提供了一個describe()函數，用來查看所有數值列的匯總統計信息。describe()函數所列出的匯總統計信息包括：數量，平均數，標準差，最小值，第25%，中位數，第75%和最大值。下面是一個示例代碼：

import pandas as pd
df = pd.read_csv('data.csv')
print(df.describe())

以上代碼中，我們讀取了名為”data.csv”的文件中的數據，並使用describe()函數來查看數值列的匯總統計信息。結果輸出如下：

             Age      Score
count  10.000000  10.000000
mean   26.300000  89.400000
std     3.096747   2.485124
min    20.000000  85.000000
25%    24.250000  88.250000
50%    26.500000  89.750000
75%    28.750000  91.125000
max    32.000000  92.500000

上述代碼中，我們可以看到所有數值列的匯總統計信息。例如，在這個DataFrame中，Age列的平均值是26.3，最小值是20，最大值是32。

五、使用applymap()函數遍歷所有元素並查看數據類型

在pandas庫中，DataFrame對象提供了applymap()函數，可以用來遍歷DataFrame中的每個元素，並對每個元素執行相應的操作。下面是一個示例代碼：

import pandas as pd
df = pd.read_csv('data.csv')
print(df.applymap(type))

以上代碼中，我們讀取了名為”data.csv”的文件中的數據，並使用applymap()函數遍歷所有元素，並列印出每個元素對應的數據類型。結果輸出如下：

                                               Name                Age              Score
0          
1          
2          
3          
4          
5          
6          
7          
8          
9

上述代碼中，我們使用applymap()函數遍歷了所有的元素，並輸出了每個元素對應的數據類型。我們可以看到，所有的數據類型除了數據里的字元（Name列）外，其他的都是int或者float類型。

六、總結

在Python的pandas庫中，我們有很多方法來查看DataFrame數據的類型。通過以上的介紹，我們了解到了使用info()函數、dtypes屬性、select_dtypes()函數、describe()函數以及applymap()函數分別來查看DataFrame數據類型的方法。使得我們在數據處理方面也可以掌握更多技能。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/190408.html