python爬取网页并生成表格

本文将从以下几个方面详细介绍如何使用Python爬取网页数据并生成表格:

一、获取网页数据

获取网页数据的一般思路是通过HTTP请求获取网页内容,最常用的方式是使用Python库requests。使用requests库发送HTTP请求需要指定请求方法、请求头部、请求参数等。以获取豆瓣电影评分榜单为例,可以使用以下代码:

import requests

url = "https://movie.douban.com/chart"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
response = requests.get(url, headers=headers)
content = response.text

其中:url是目标网页的URL地址,headers是请求头部,可以增加请求主体的信息。response是服务器返回的HTTP响应,content是响应的主体内容。需要注意的是,豆瓣电影评分榜单是需要登录后才能查看的,因此需要在请求头部中添加Cookie信息。

二、解析网页数据

获得网页内容后,需要解析出需要的数据。在Python中,最常用的解析库是BeautifulSoup和lxml。以获取豆瓣电影评分榜单的电影名称和评分为例,可以使用以下代码:

from bs4 import BeautifulSoup

soup = BeautifulSoup(content, "lxml")
movies = soup.select(".pl2 a")
ratings = soup.select(".rating_nums")
for movie, rating in zip(movies, ratings):
    print(movie.text, rating.text)

其中,soup变量是将网页内容解析为BeautifulSoup对象的结果,”lxml”是使用lxml解析器解析网页内容。movies和ratings是使用CSS选择器选取的电影和评分。通过Python的zip函数将电影和评分一一对应输出。

三、生成表格

获得需要的数据之后,可以通过Python库pandas将其保存为表格形式。以保存豆瓣电影评分榜单的电影名称和评分为例,可以使用以下代码:

import pandas as pd

data = {"电影名称": [movie.text for movie in movies], "评分": [rating.text for rating in ratings]}
df = pd.DataFrame(data)
df.to_excel("douban_movies.xlsx", index=False)

其中,data是包含电影名称和评分的字典,df是将data转换为DataFrame对象的结果。to_excel方法可以将DataFrame保存为Excel文件,以便后续分析使用。

四、完整代码

import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://movie.douban.com/chart"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
    "Cookie": ""}
response = requests.get(url, headers=headers)
content = response.text

soup = BeautifulSoup(content, "lxml")
movies = soup.select(".pl2 a")
ratings = soup.select(".rating_nums")

data = {"电影名称": [movie.text for movie in movies], "评分": [rating.text for rating in ratings]}
df = pd.DataFrame(data)
df.to_excel("douban_movies.xlsx", index=False)

五、总结

本文主要介绍了如何使用Python爬取网页数据并生成表格。具体来说,我们可以使用requests库获取网页内容,使用BeautifulSoup或lxml解析网页内容,使用pandas保存解析出来的数据为表格。掌握了这些技能,我们就可以快速地获取需要的数据,并对其进行分析处理。

原创文章,作者:HJUXQ,如若转载,请注明出处:https://www.506064.com/n/375020.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
HJUXQ的头像HJUXQ
上一篇 2025-04-28 13:17
下一篇 2025-04-28 13:17

相关推荐

  • Python中引入上一级目录中函数

    Python中经常需要调用其他文件夹中的模块或函数,其中一个常见的操作是引入上一级目录中的函数。在此,我们将从多个角度详细解释如何在Python中引入上一级目录的函数。 一、加入环…

    编程 2025-04-29
  • Python列表中负数的个数

    Python列表是一个有序的集合,可以存储多个不同类型的元素。而负数是指小于0的整数。在Python列表中,我们想要找到负数的个数,可以通过以下几个方面进行实现。 一、使用循环遍历…

    编程 2025-04-29
  • Python周杰伦代码用法介绍

    本文将从多个方面对Python周杰伦代码进行详细的阐述。 一、代码介绍 from urllib.request import urlopen from bs4 import Bea…

    编程 2025-04-29
  • Python计算阳历日期对应周几

    本文介绍如何通过Python计算任意阳历日期对应周几。 一、获取日期 获取日期可以通过Python内置的模块datetime实现,示例代码如下: from datetime imp…

    编程 2025-04-29
  • 如何查看Anaconda中Python路径

    对Anaconda中Python路径即conda环境的查看进行详细的阐述。 一、使用命令行查看 1、在Windows系统中,可以使用命令提示符(cmd)或者Anaconda Pro…

    编程 2025-04-29
  • python强行终止程序快捷键

    本文将从多个方面对python强行终止程序快捷键进行详细阐述,并提供相应代码示例。 一、Ctrl+C快捷键 Ctrl+C快捷键是在终端中经常用来强行终止运行的程序。当你在终端中运行…

    编程 2025-04-29
  • Python中new和init的区别

    new和init都是Python中常用的魔法方法,它们分别负责对象的创建和初始化,本文将从多个角度详细阐述它们的区别。 一、创建对象 new方法是用来创建一个对象的,它是一个类级别…

    编程 2025-04-29
  • Python中capitalize函数的使用

    在Python的字符串操作中,capitalize函数常常被用到,这个函数可以使字符串中的第一个单词首字母大写,其余字母小写。在本文中,我们将从以下几个方面对capitalize函…

    编程 2025-04-29
  • PHP和Python哪个好找工作?

    PHP和Python都是非常流行的编程语言,它们被广泛应用于不同领域的开发中。但是,在考虑择业方向的时候,很多人都会有一个问题:PHP和Python哪个好找工作?这篇文章将从多个方…

    编程 2025-04-29
  • Python for循环求1到100的积

    Python中的for循环可以方便地遍历列表、元组、字典等数据类型。本文将以Python for循环求1到100的积为中心,从多个方面进行详细阐述。 一、for循环语法 Pytho…

    编程 2025-04-29

发表回复

登录后才能评论