使用Python的Pandas库创建Dataframe

一、Pandas库简介

Pandas是一个用于数据处理和数据分析的强大Python库,它提供了许多高效的数据结构和数据分析工具,其中最核心的数据结构是Series和DataFrame。Series是一种一维数组结构,而DataFrame则是一种二维表格结构。

Pandas还可以用于数据导入、数据清洗、数据操作、数据可视化等任务。在数据科学、金融、经济、社会科学等领域中,Pandas已经成为了必不可少的工具。

二、创建Dataframe的两种方式

在Pandas中,我们可以使用两种方式创建一个DataFrame,一种是从Python字典创建,另一种是从外部数据源导入。当然,这里我们只介绍第一种方式,即从Python字典创建DataFrame。

创建一个DataFrame的基本语法如下:

import pandas as pd

# 使用字典创建DataFrame
df = pd.DataFrame({'列名1': [数据1, 数据2, 数据3, ...],
                   '列名2': [数据1, 数据2, 数据3, ...],
                   '列名3': [数据1, 数据2, 数据3, ...],
                    ...
                  })

其中,第一个大括号内的每一个键-值对都代表着DataFrame的一列,键表示列名,值表示该列的数据。注意:各列数据的长度必须一致。

三、创建Dataframe的例子

我们通过一个例子来演示如何使用Python的Pandas库创建一个DataFrame:

import pandas as pd

# 使用字典创建DataFrame
df = pd.DataFrame({'姓名': ['张三', '李四', '王五', '赵六'],
                   '年龄': [18, 22, 25, 30],
                   '性别': ['男', '女', '男', '女'],
                   '成绩': [85.6, 92.3, 78.9, 87.5]
                  })

# 输出DataFrame
print(df)

输出结果如下:

   姓名  年龄 性别    成绩
0  张三  18  男  85.6
1  李四  22  女  92.3
2  王五  25  男  78.9
3  赵六  30  女  87.5

四、DataFrame的基本操作

创建好DataFrame之后,我们可以进行各种操作,包括索引、切片、筛选、统计等。这里我们对其中的几个常用操作进行介绍。

五、DataFrame的索引

Pandas中,我们可以通过loc、iloc、ix、at、iat等方式对DataFrame进行索引。这些方法分别代表了不同的索引方式,比较常用的是loc和iloc。

loc方法的基本语法如下:

df.loc[行名,列名]

其中,行名和列名可以是单个值,也可以是列表形式的多个值。例如,我们要查询姓名为“李四”的成绩和性别,代码如下:

# 使用loc方法索引
print(df.loc[df['姓名'] == '李四', ['成绩', '性别']])

输出结果如下:

     成绩 性别
1  92.3  女

iloc方法的基本语法如下:

df.iloc[行号,列号]

与loc类似,行号和列号也可以是单个值或列表形式的多个值。例如,我们要查询第三行第二列的数据,代码如下:

# 使用iloc方法索引
print(df.iloc[2, 1])

输出结果为25。

六、DataFrame的求和和均值

我们可以使用sum方法对DataFrame数据进行求和,也可以使用mean方法求出DataFrame数据的平均值。

例如,我们要求出成绩列的总和和平均值,代码如下:

# 求和
sum_score = df['成绩'].sum()
print('成绩总和为:', sum_score)

# 求平均值
mean_score = df['成绩'].mean()
print('成绩平均值为:', mean_score)

输出结果为:

成绩总和为: 344.3
成绩平均值为: 86.075

七、DataFrame的排序

我们可以使用sort_values方法对DataFrame数据进行排序。

例如,我们要按照年龄升序排序,代码如下:

# 按照年龄升序排序
df = df.sort_values(by='年龄')

# 输出排序后的DataFrame
print(df)

输出结果为:

   姓名  年龄 性别    成绩
0  张三  18  男  85.6
1  李四  22  女  92.3
2  王五  25  男  78.9
3  赵六  30  女  87.5

八、小结

使用Python的Pandas库创建Dataframe是数据分析和数据处理中的一个非常重要的环节。通过本文的介绍,您可以了解到Pandas库的基本情况、DataFrame的创建方式、DataFrame的基本操作以及一些常用函数的使用方法。当然,Pandas库功能还非常强大,您可以自行查找相关资料进行学习。

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/309675.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝的头像小蓝
上一篇 2025-01-04 19:31
下一篇 2025-01-04 19:31

相关推荐

  • Python中引入上一级目录中函数

    Python中经常需要调用其他文件夹中的模块或函数,其中一个常见的操作是引入上一级目录中的函数。在此,我们将从多个角度详细解释如何在Python中引入上一级目录的函数。 一、加入环…

    编程 2025-04-29
  • Python列表中负数的个数

    Python列表是一个有序的集合,可以存储多个不同类型的元素。而负数是指小于0的整数。在Python列表中,我们想要找到负数的个数,可以通过以下几个方面进行实现。 一、使用循环遍历…

    编程 2025-04-29
  • Python周杰伦代码用法介绍

    本文将从多个方面对Python周杰伦代码进行详细的阐述。 一、代码介绍 from urllib.request import urlopen from bs4 import Bea…

    编程 2025-04-29
  • Python计算阳历日期对应周几

    本文介绍如何通过Python计算任意阳历日期对应周几。 一、获取日期 获取日期可以通过Python内置的模块datetime实现,示例代码如下: from datetime imp…

    编程 2025-04-29
  • 如何查看Anaconda中Python路径

    对Anaconda中Python路径即conda环境的查看进行详细的阐述。 一、使用命令行查看 1、在Windows系统中,可以使用命令提示符(cmd)或者Anaconda Pro…

    编程 2025-04-29
  • 蝴蝶优化算法Python版

    蝴蝶优化算法是一种基于仿生学的优化算法,模仿自然界中的蝴蝶进行搜索。它可以应用于多个领域的优化问题,包括数学优化、工程问题、机器学习等。本文将从多个方面对蝴蝶优化算法Python版…

    编程 2025-04-29
  • Python读取CSV数据画散点图

    本文将从以下方面详细阐述Python读取CSV文件并画出散点图的方法: 一、CSV文件介绍 CSV(Comma-Separated Values)即逗号分隔值,是一种存储表格数据的…

    编程 2025-04-29
  • Python实现画笔方向改变

    本文将介绍如何在Python中实现画笔方向改变,让画笔以中心为轴旋转。 一、Tkinter库概述 Tkinter是Python自带的GUI库,可用于创建各种GUI应用程序。在Pyt…

    编程 2025-04-29
  • 运维Python和GO应用实践指南

    本文将从多个角度详细阐述运维Python和GO的实际应用,包括监控、管理、自动化、部署、持续集成等方面。 一、监控 运维中的监控是保证系统稳定性的重要手段。Python和GO都有强…

    编程 2025-04-29
  • Python清华镜像下载

    Python清华镜像是一个高质量的Python开发资源镜像站,提供了Python及其相关的开发工具、框架和文档的下载服务。本文将从以下几个方面对Python清华镜像下载进行详细的阐…

    编程 2025-04-29

发表回复

登录后才能评论