用Python輸出網頁標題

在我們每天的上網衝浪中,打開一個網頁的第一件事情,往往是看看這個網頁的標題。有時我們需要爬取一大批網頁,獲取它們的標題信息。在這篇文章中,我們將學習如何使用Python輸出網頁標題,從而輕鬆獲取網頁信息,加速我們的工作。

一、Python網頁輸出JSON

要獲取網頁標題,第一步將是爬取網頁HTML內容,使用Python中的’urllib’模塊可以很容易地實現這一點。在下面的代碼段中,我們用Python爬取嗶哩嗶哩的HTML內容,並將其輸出為JSON格式。

import urllib.request
import json

url = 'http://www.bilibili.com'
req = urllib.request.urlopen(url)
html = req.read()
charset = req.info().get('charset', 'utf-8')
html = html.decode(charset)
title = html[html.find('') + 7 : html.find('')]
result = {'url': url, 'title': title}
json_result = json.dumps(result, ensure_ascii=False)
print(json_result)

在上述代碼中,我們首先用Python的’urllib.request’模塊打開了嗶哩嗶哩網站,並讀取了其HTML內容。接著我們使用’json’模塊,將網站的網址和標題組合成了一個json對象。最後我們使用’json.dumps’將JSON對象轉換為JSON字元串,並使用’print’函數進行輸出。在這裡,我們使用了’ensure_ascii=False’,這樣可以確保有中文的網頁標題也可以被正確地輸出。

二、Python怎麼輸出中文標題

許多網站的標題可能包含中文字元。為了確保這些字元能夠被 Python 正確地讀取和輸出,我們需要確定它們所使用的編碼格式,並將 Python 的編碼格式設置為相同的格式。有時候,我們也需要對編碼格式進行轉換,將其轉換為 Python 可以讀取的編碼格式。在下面這個例子中,我們將使用 Python 來獲取網頁標題,並確保其正確地輸出中文字元。

import urllib.request
import chardet

url = 'http://www.163.com'
req = urllib.request.urlopen(url)
html = req.read()
encoding = chardet.detect(html)['encoding']
html = html.decode(encoding)
title_utf8 = html[html.find('') + 7 : html.find('')]
title_gbk = title_utf8.encode('utf-8').decode('gbk')
print(title_gbk)

在上述代碼中,我們使用了’chardet’模塊來猜測網頁HTML內容的編碼格式。接著我們使用這個編碼格式將網頁內容解碼成Unicode字元串。使用Unicode字元串,我們可以更加容易地處理網頁標題中的中文字元。然後我們使用UTF-8編碼格式將字元串編碼,再將它轉換為GBK編碼格式。最後,我們輸出了這個網站的標題。

三、Python獲取網頁標題

下面的代碼演示了如何使用Python獲取一個網站的標題。

import urllib.request

url = 'http://www.baidu.com'
req = urllib.request.urlopen(url)
html = req.read()
charset = req.info().get('charset', 'utf-8')
html = html.decode(charset)
title = html[html.find('') + 7 : html.find('')]
print(title)

在這個代碼段中,我們使用Python中的 urllib.request 來打開百度的網站,並讀取其HTML內容。接著,我們使用’infp().get’函數來獲取HTML的編碼格式,並將其用於解碼HTML。最後,我們使用字元串切片操作獲取百度網站的標題,並輸出它。

四、Python爬取網頁標題

下面我們演示一個完整的Python爬蟲程序,用於獲取一個網站的標題。

import requests
from bs4 import BeautifulSoup

url = 'http://www.sohu.com/'
r = requests.get(url)
r.encoding = r.apparent_encoding

soup = BeautifulSoup(r.text, 'html.parser')
title = soup.title.string

print(title)

在上述代碼中,我們首先使用’ requests ‘模塊獲取我們想要爬取信息的網站。接著,我們使用 BeautifulSoup 模塊解析HTML,並找到網站的標題。最終,我們輸出標題。

五、Python爬取網頁標題和日期

與獲取網頁標題類似,我們經常需要獲取網頁上的其他信息,例如發布的日期。接下來,讓我們看一個Python程序,它可以輸出網頁標題和發布日期。

import requests
from bs4 import BeautifulSoup

url = 'http://www.xinhuanet.com/politics/'
r = requests.get(url)
r.encoding = r.apparent_encoding

soup = BeautifulSoup(r.text, 'html.parser')
news_list = soup.find_all(class_='clearfix')
for news in news_list:
  title = news.find('a').attrs['title']
  date = news.find('span').string
  print('{} - {}'.format(title, date))

在這個代碼段中,我們首先使用’ requests ‘模塊獲取新華網政治新聞的網頁源代碼。接著,我們使用 BeautifulSoup 來解析HTML,找到所有帶有’class=”clearfix”‘屬性的標籤。對於每個新聞條目,我們使用’find’函數來找到該新聞的標題和發布日期,並使用’format’函數進行輸出。

結論

在這篇文章中,我們學習了如何使用Python輸出網頁的標題。無論你想要使用哪種方法來獲取標題,Python提供了大量可用的工具,可以方便,高效地進行網頁信息的獲取,使我們的工作更加快捷和便利。

原創文章,作者:UWXX,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/140096.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
UWXX的頭像UWXX
上一篇 2024-10-04 00:23
下一篇 2024-10-04 00:23

相關推薦

  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • 蝴蝶優化演算法Python版

    蝴蝶優化演算法是一種基於仿生學的優化演算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化演算法Python版…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智慧、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29

發表回復

登錄後才能評論