python源代碼大全:python爬蟲腳本在哪裡找

在進行真正的爬蟲工程創建之前,我們先要明確我們所要操作的對象是什麼?完成所有操作之後要獲取到的數據或信息是什麼?

首先是第一個問題:操作對象,爬蟲全稱是網路爬蟲,顧名思義,它所操作的對象當然就是網頁,由於網維網存在的網頁數不勝數,所以我們需要指定爬蟲對象需要藉助URL來定位所要操作的網頁。

一、預備知識:

1.訪問網頁的具體流程:

在用戶瀏覽網頁的過程,其實就是用戶輸入網址之後,經過DNS伺服器,找到伺服器主機,向伺服器發出一個請求,伺服器經過解析之後,發送給用戶的瀏覽器 HTML、JS、CSS 等文件,瀏覽器解析出來,用戶便可以看到形形色色的圖片了。 因此,用戶看到的網頁實質是由HTML代碼構成的,爬蟲爬來的便是這些內容,通過分析和過濾這些HTML代碼,實現對圖片、文字等資源的獲取。

2.URL:

全稱是統一資源定位符,是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。

一個URL格式由三部分信息組成:

a.第一部分是協議(或稱為服務方式);

b.第二部分是存有該資源的主機IP地址(有時也包括埠號);

c.第三部分是主機資源的具體地址,如目錄和文件名等。

爬蟲爬取數據時必須要有一個目標的URL才可以獲取數據,因此,URL是爬蟲獲取數據的基本依據。

二、創建爬蟲腳本:

創建一個爬蟲腳本其實就是創建一個Python,這裡我們創建一個名為test.py的腳本,然後把urllib2庫導入到腳本中,然後爬取一個url地址的內容並列印出來,腳本內容如下:

教你用Python10行代碼創建Python爬蟲腳本

腳本創建完畢後,在命令行中定位到當前腳本的目錄,然後運行指令:

教你用Python10行代碼創建Python爬蟲腳本

這樣,在urlopen中所輸入的地址所指定的網頁內容就被列印出來,注意要列印response.read()的內容而不是直接列印response。這是因為urlopen其實只是打開一個URL地址,而真正讀取被打開地址內容,是通過read方法來實現的。

可以進行簡單的封裝,得到一個獲取指定url的html內容的方法,如下:

教你用Python10行代碼創建Python爬蟲腳本

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/220799.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2024-12-09 12:17
下一篇 2024-12-09 12:17

相關推薦

發表回復

登錄後才能評論