一、Dataframe是什麼
Dataframe是一個二維標籤數組,它含有不同類型的列,其中每一列可以是一個不同的值類型,如浮點、整數或字符串等。Dataframe常被用作數據科學和機器學習中的主要數據結構。
Dataframe中的數據可以通過多種方式初始化,本文將對這些初始化方式進行詳細說明和演示。
二、使用列表初始化Dataframe
利用列表初始化Dataframe是一種最基礎的方式。可以通過傳入由列表構成的字典來初始化Dataframe,字典的key表示列名,value則為相應的列表。
import pandas as pd dict_data = {'name': ['David', 'Tina', 'Lucy', 'Jone', 'Tom'], 'age': [18, 19, 20, 21, 25], 'gender': ['M', 'F', 'F', 'F', 'M']} df = pd.DataFrame(dict_data) print(df.head())
結果將會輸出:
name age gender 0 David 18 M 1 Tina 19 F 2 Lucy 20 F 3 Jone 21 F 4 Tom 25 M
三、使用NumPy數組初始化Dataframe
另一種初始化Dataframe的方法是利用NumPy數組,其中每列會用數組的列來構建Dataframe,例如:
import numpy as np import pandas as pd arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12], [13, 14, 15]]) df = pd.DataFrame(arr, columns=['A', 'B', 'C']) print(df.head())
結果將會輸出:
A B C 0 1 2 3 1 4 5 6 2 7 8 9 3 10 11 12 4 13 14 15
四、讀取CSV數據文件初始化Dataframe
使用pandas讀取CSV文件來初始化Dataframe是最常用的方法之一。以下示例用pandas從CSV文件中讀取並初始化一個Dataframe:
import pandas as pd df = pd.read_csv('data.csv') print(df.head())
結果將會輸出讀取的CSV文件的前5行數據。
五、使用字典數組初始化Dataframe
最後一種方法是使用字典構成的數組。每個字典包含Dataframe中的一行數據,字典的key表示列名,value則為相應的值。
import pandas as pd data = [{'name': 'David', 'age': 18, 'gender': 'M'}, {'name': 'Tina', 'age': 19, 'gender': 'F'}, {'name': 'Lucy', 'age': 20, 'gender': 'F'}, {'name': 'John', 'age': 21, 'gender': 'F'}, {'name': 'Tom', 'age': 22, 'gender': 'M'}] df = pd.DataFrame(data) print(df.head())
結果將會輸出:
name age gender 0 David 18 M 1 Tina 19 F 2 Lucy 20 F 3 John 21 F 4 Tom 22 M
六、總結
Dataframe是進行數據科學和機器學習的必要數據結構之一。本文介紹了Dataframe的基礎知識以及它的多種初始化方法。上面展示的示例代碼中,演示了使用列表、NumPy數組、CSV文件和字典數組初始化Dataframe的方法。在實際運用過程中,應按照實際情況掌握每種方法,並且熟練掌握常用的Dataframe函數進行數據處理。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/187694.html