一、Dataframe是什么
Dataframe是一个二维标签数组,它含有不同类型的列,其中每一列可以是一个不同的值类型,如浮点、整数或字符串等。Dataframe常被用作数据科学和机器学习中的主要数据结构。
Dataframe中的数据可以通过多种方式初始化,本文将对这些初始化方式进行详细说明和演示。
二、使用列表初始化Dataframe
利用列表初始化Dataframe是一种最基础的方式。可以通过传入由列表构成的字典来初始化Dataframe,字典的key表示列名,value则为相应的列表。
import pandas as pd dict_data = {'name': ['David', 'Tina', 'Lucy', 'Jone', 'Tom'], 'age': [18, 19, 20, 21, 25], 'gender': ['M', 'F', 'F', 'F', 'M']} df = pd.DataFrame(dict_data) print(df.head())
结果将会输出:
name age gender 0 David 18 M 1 Tina 19 F 2 Lucy 20 F 3 Jone 21 F 4 Tom 25 M
三、使用NumPy数组初始化Dataframe
另一种初始化Dataframe的方法是利用NumPy数组,其中每列会用数组的列来构建Dataframe,例如:
import numpy as np import pandas as pd arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12], [13, 14, 15]]) df = pd.DataFrame(arr, columns=['A', 'B', 'C']) print(df.head())
结果将会输出:
A B C 0 1 2 3 1 4 5 6 2 7 8 9 3 10 11 12 4 13 14 15
四、读取CSV数据文件初始化Dataframe
使用pandas读取CSV文件来初始化Dataframe是最常用的方法之一。以下示例用pandas从CSV文件中读取并初始化一个Dataframe:
import pandas as pd df = pd.read_csv('data.csv') print(df.head())
结果将会输出读取的CSV文件的前5行数据。
五、使用字典数组初始化Dataframe
最后一种方法是使用字典构成的数组。每个字典包含Dataframe中的一行数据,字典的key表示列名,value则为相应的值。
import pandas as pd data = [{'name': 'David', 'age': 18, 'gender': 'M'}, {'name': 'Tina', 'age': 19, 'gender': 'F'}, {'name': 'Lucy', 'age': 20, 'gender': 'F'}, {'name': 'John', 'age': 21, 'gender': 'F'}, {'name': 'Tom', 'age': 22, 'gender': 'M'}] df = pd.DataFrame(data) print(df.head())
结果将会输出:
name age gender 0 David 18 M 1 Tina 19 F 2 Lucy 20 F 3 John 21 F 4 Tom 22 M
六、总结
Dataframe是进行数据科学和机器学习的必要数据结构之一。本文介绍了Dataframe的基础知识以及它的多种初始化方法。上面展示的示例代码中,演示了使用列表、NumPy数组、CSV文件和字典数组初始化Dataframe的方法。在实际运用过程中,应按照实际情况掌握每种方法,并且熟练掌握常用的Dataframe函数进行数据处理。
原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/187694.html