Python爬取網頁數據

引言

隨着互聯網技術的發展和普及,數據已經成為了信息時代最重要的資源之一,大量的網站上都有人們需要的信息,這些信息可以用來做數據分析和機器學習,十分有價值。但是,手動去爬取這些數據在時間和精力上都是十分不划算的,因此,人們開始使用自動化程序來爬取網頁數據。而這裡,我們介紹使用Python編程語言來爬取網頁數據的方法和技巧。

Python爬取網頁數據步驟和技巧

Python爬取網頁數據大致可以分為以下幾個步驟:

1. 發送請求,獲取網頁源代碼
2. 解析網頁源代碼,提取想要的數據
3. 存儲數據

Python爬取網頁數據代碼示例

這裡我們以一個小例子來展示如何使用Python代碼來爬取“網易新聞”網站中的新聞標題和發布時間。

import requests
from bs4 import BeautifulSoup

url = "https://news.163.com/"
res = requests.get(url)
res.encoding = "utf-8"
soup = BeautifulSoup(res.text, "html.parser")

news_list = soup.find_all("div", class_="mod_top_news2")[0].find_all("li")
for news_item in news_list:
    title = news_item.find("a").text
    time = news_item.find("span", class_="time").text
    print(title, time)

上面代碼中,我們使用requests發送請求獲取網頁源代碼,然後使用BeautifulSoup解析網頁源代碼,提取所需的數據,並最終輸出這些數據。這種方法也適用於其他的網站。

Python爬取網頁數據庫

在實際的應用中,我們有時需要將爬取到的數據存儲到數據庫中,以方便後續的數據分析和處理。這裡,我們介紹一下如何使用Python將爬取到的數據存儲到MySQL數據庫中。

首先,我們需要安裝MySQL和Python的MySQL庫(如mysql-connector-python)。然後,我們可以使用以下代碼來連接MySQL數據庫。

import mysql.connector

config = {
    "user": "root",
    "password": "",
    "host": "127.0.0.1",
    "database": "test",
    "charset": "utf8"
}

cnx = mysql.connector.connect(**config)
cursor = cnx.cursor()

接着,我們可以使用下面的代碼來向數據庫中插入數據。

sql = "INSERT INTO news (title, time) VALUES (%s, %s)"
data = [("news1", "2022-01-01"), ("news2", "2022-01-02"), ("news3", "2022-01-03")]

cursor.executemany(sql, data)
cnx.commit()

上面的代碼插入了三條新聞數據到news表中。執行commit()方法可以將數據提交到數據庫中。

Python爬取網頁數據分析

爬取到的數據通常需要經過數據清洗和處理之後才能進行後續的分析。我們可以使用Python的pandas庫來進行數據處理和分析。

首先,我們可以使用pandas的read_csv()函數將CSV格式的文件讀入到pandas的DataFrame中。

import pandas as pd

df = pd.read_csv("data.csv")

接着,我們可以使用pandas的各種函數和方法對數據進行分析和處理,例如按照時間排序、統計標題出現次數等等。

# 按照時間排序
df_sorted = df.sort_values(by="time")

# 統計標題出現次數
title_count = df["title"].value_counts()

使用pandas等數據處理庫,可以大大提高數據處理的效率和精度。

Python爬取網頁數據亂碼

在爬取網頁數據時,有時會遇到亂碼的問題。這通常是因為網頁使用的編碼和我們解析網頁時使用的編碼不一致導致的。

我們可以通過調整requests請求對象的encoding屬性來解決這個問題。例如:

res.encoding = "utf-8"

將requests請求對象的encoding屬性設置為網頁所使用的編碼即可。

Python爬取網頁數據違法嗎

在爬取網頁數據時,有時可能會違反網站的相關規定,例如網站的反爬蟲規定等。因此,在爬取網頁數據時,我們需要了解相關規定並遵守。

一般來說,合理使用爬蟲並不會對網站造成太大的負擔和影響。然而,惡意使用爬蟲等行為有可能會對網站造成損失,因此我們應該盡量遵守相關規定。

Python爬取網頁數據步驟圖解

下面是Python爬取網頁數據的步驟圖解。

總結

本文介紹了Python爬取網頁數據的步驟和技巧,並且講解了如何爬取網頁數據庫以及如何對爬取到的數據進行分析和處理。同時,本文還回答了一些相關的問題,並給出了Python爬取網頁數據的步驟圖解。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/242440.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-12 12:48
下一篇 2024-12-12 12:48

相關推薦

  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29

發表回復

登錄後才能評論