从多个方面详解pandas查询

一、基础查询

pandas作为Python数据分析的重要库,提供了丰富的数据操作和查询功能,但需要一定的基础和经验。pandas最基础的查询功能是根据索引号或者列名进行查询。

import pandas as pd

df = pd.DataFrame({
    'name':['Amy','Bob','Cathy','David','Eric'],
    'age':[22,35,28,30,25],
    'score':[80,95,85,75,70]
})

# 按照索引号查询,输出第2行(索引号为1)到第4行(索引号为3)
print(df.iloc[1:4])

# 按照列名查询,输出“name”列和“score”列
print(df[['name','score']])

可以看到,基础查询可以根据行索引号和列名进行数据的切片和筛选,但是如果需要进行更为复杂的数据筛选和过滤,则需要使用更高级的查询方法。

二、布尔索引

布尔索引是一种通过真假值进行数据筛选和过滤的方法,在pandas中使用较为普遍。通过布尔索引,可以根据某些条件来选取数据,比如选择所有大于某个值的数据,或者根据多重条件选择数据。

import pandas as pd

df = pd.DataFrame({
    'name':['Amy','Bob','Cathy','David','Eric'],
    'age':[22,35,28,30,25],
    'score':[80,95,85,75,70]
})

# 选择age大于等于30的行
print(df[df['age'] >= 30])

# 选择age大于等于30且score大于等于80的行
print(df[(df['age'] >= 30) & (df['score'] >= 80)])

可以看到,在使用布尔索引时,需要使用[]来包裹筛选条件,多个条件之间使用&(与)或|(或)进行连接。布尔索引有很强的灵活性,可以通过不同的条件组合筛选出复杂的数据。

三、apply查询

apply是pandas中一个非常重要的数据查询和转换函数,它可以对数据进行自定义操作,比如对一列数据进行字符串拼接、转换成大写或小写、计算列和等。apply主要有两种用法,一种是对一列数据进行apply操作,另一种是对整个数据进行apply操作。

import pandas as pd

df = pd.DataFrame({
    'name':['Amy','Bob','Cathy','David','Eric'],
    'age':[22,35,28,30,25],
    'score':[80,95,85,75,70]
})

# 将score值大于80的行的"score"列和"age"列相加作为新列"sum"存储
df['sum'] = df.apply(lambda x: x['score'] + x['age'] if x['score'] > 80 else 0, axis=1)
print(df)

# 将"name"列的值全部转化为小写字母
df['name'] = df['name'].apply(lambda x: x.lower())
print(df)

可以看到,在apply中,需要使用lambda表达式对数据进行处理,axis参数表示对数据进行apply操作的方向,0表示列,1表示行。

四、Groupby查询

Groupby是pandas中一个非常常用的数据分组和查询函数,它可以对数据进行分组后进行聚合和操作,比如统计不同类别的数量、计算某个指标的平均值。Groupby函数需要将数据进行分组,分成多个子集,然后对每个子集进行聚合。

import pandas as pd

df = pd.DataFrame({
    'name':['Amy','Bob','Cathy','David','Eric'],
    'gender':['F','M','F','M','M'],
    'score':[80,95,85,75,70]
})

# 按照gender分组,统计各个分组中的平均分数
grouped = df.groupby('gender')['score'].mean()
print(grouped)

# 按照多个列进行分组,统计各个分组中的平均分数和数量
grouped = df.groupby(['gender','name'])['score'].agg(['mean','count'])
print(grouped)

可以看到,Groupby函数的用法较为简单,但是具有很强的统计和计算能力,可以对数据进行高效地分组、聚合和统计。需要注意的是,Groupby函数需要先进行数据分组,然后才能对每个子集进行聚合和操作,需要根据具体需求进行合理的操作。

五、Merging和Join查询

Merging和Join是pandas中常用的将两个或多个数据集合并和连接的函数,可以将两个不同数据源的数据进行合并。Merging和Join的主要区别在于,Merging是根据两个数据集中的某个列的值进行合并,而Join则是根据索引进行连接。

import pandas as pd

data1 = pd.DataFrame({
    'name':['Amy','Bob','Cathy','David','Eric'],
    'age':[22,35,28,30,25],
    'score':[80,95,85,75,70]
})

data2 = pd.DataFrame({
    'name':['Amy','Bob','Cathy','Michael','Tom'],
    'income':[5000,8000,6000,6500,7000],
    'address':['Beijing','Shanghai','Guangzhou','Beijing','Shanghai']
})

# Merging函数,以"name"列的值为键值,合并两个数据集,相同的键值列合并在一个行中
merged = pd.merge(data1,data2,on='name')
print(merged)

data1.set_index('name',inplace=True)
data2.set_index('name',inplace=True)

# Join函数,以索引为键值,按照列名进行连接,将两个数据集中的列合并在一起
joined = data1.join(data2)
print(joined)

可以看到,在数据集合并和连接方面,pandas提供了两种常见的函数,可根据不同的需求选用合适的函数。

六、Conclusion

pandas是Python数据分析非常重要的库之一,具有丰富的数据查询和操作功能。本文从多个方面对pandas的查询进行了详细阐述,包括基础查询、布尔索引、apply查询、Groupby查询和Merging和Join查询。不同的查询方法可以根据具体的数据分析需求进行灵活的运用,为数据分析工作提供有效的帮助。

原创文章,作者:IRAFA,如若转载,请注明出处:https://www.506064.com/n/367984.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
IRAFAIRAFA
上一篇 2025-04-02 01:28
下一篇 2025-04-02 01:28

相关推荐

  • 为什么Python不能编译?——从多个方面浅析原因和解决方法

    Python作为很多开发人员、数据科学家和计算机学习者的首选编程语言之一,受到了广泛关注和应用。但与之伴随的问题之一是Python不能编译,这给基于编译的开发和部署方式带来不少麻烦…

    编程 2025-04-29
  • Java判断字符串是否存在多个

    本文将从以下几个方面详细阐述如何使用Java判断一个字符串中是否存在多个指定字符: 一、字符串遍历 字符串是Java编程中非常重要的一种数据类型。要判断字符串中是否存在多个指定字符…

    编程 2025-04-29
  • Python合并多个相同表头文件

    对于需要合并多个相同表头文件的情况,我们可以使用Python来实现快速的合并。 一、读取CSV文件 使用Python中的csv库读取CSV文件。 import csv with o…

    编程 2025-04-29
  • 从多个方面用法介绍yes,but let me review and configure level of access

    yes,but let me review and configure level of access是指在授权过程中,需要进行确认和配置级别控制的全能编程开发工程师。 一、授权确…

    编程 2025-04-29
  • 从多个方面zmjui

    zmjui是一个轻量级的前端UI框架,它实现了丰富的UI组件和实用的JS插件,让前端开发更加快速和高效。本文将从多个方面对zmjui做详细阐述,帮助读者深入了解zmjui,以便更好…

    编程 2025-04-28
  • Pandas下载whl指南

    本篇文章将从几个方面为大家详细解答如何下载Pandas的whl文件。 一、Pandas简介 Pandas是一个基于Python的软件库,主要用于数据分析、清洗和处理。在数据处理方面…

    编程 2025-04-28
  • 学Python用什么编辑器?——从多个方面评估各种Python编辑器

    选择一个适合自己的 Python 编辑器并不容易。除了我们开发的应用程序类型、我们面临的软件架构以及我们的编码技能之外,选择编辑器可能也是我们编写代码时最重要的决定之一。随着许多不…

    编程 2025-04-28
  • 使用easypoi创建多个动态表头

    本文将详细介绍如何使用easypoi创建多个动态表头,让表格更加灵活和具有可读性。 一、创建单个动态表头 easypoi是一个基于POI操作Excel的Java框架,支持通过注解的…

    编程 2025-04-28
  • 创建列表的多个方面

    本文将从多个方面对创建列表进行详细阐述。 一、列表基本概念 列表是一种数据结构,其中元素以线性方式组织,并且具有特殊的序列位置。该位置可以通过索引或一些其他方式进行访问。在编程中,…

    编程 2025-04-28
  • Python多个sheet表合并用法介绍

    本文将从多个方面对Python多个sheet表合并进行详细的阐述。 一、xlrd与xlwt模块的基础知识 xlrd与xlwt是Python中处理Excel文件的重要模块。xlrd模…

    编程 2025-04-27

发表回复

登录后才能评论