在進行真正的爬蟲工程創建之前,我們先要明確我們所要操作的對象是什麼?完成所有操作之後要獲取到的數據或信息是什麼?
首先是第一個問題:操作對象,爬蟲全稱是網絡爬蟲,顧名思義,它所操作的對象當然就是網頁,由於網維網存在的網頁數不勝數,所以我們需要指定爬蟲對象需要藉助URL來定位所要操作的網頁。
一、預備知識:
1.訪問網頁的具體流程:
在用戶瀏覽網頁的過程,其實就是用戶輸入網址之後,經過DNS服務器,找到服務器主機,向服務器發出一個請求,服務器經過解析之後,發送給用戶的瀏覽器 HTML、JS、CSS 等文件,瀏覽器解析出來,用戶便可以看到形形色色的圖片了。 因此,用戶看到的網頁實質是由HTML代碼構成的,爬蟲爬來的便是這些內容,通過分析和過濾這些HTML代碼,實現對圖片、文字等資源的獲取。
2.URL:
全稱是統一資源定位符,是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。
一個URL格式由三部分信息組成:
a.第一部分是協議(或稱為服務方式);
b.第二部分是存有該資源的主機IP地址(有時也包括端口號);
c.第三部分是主機資源的具體地址,如目錄和文件名等。
爬蟲爬取數據時必須要有一個目標的URL才可以獲取數據,因此,URL是爬蟲獲取數據的基本依據。
二、創建爬蟲腳本:
創建一個爬蟲腳本其實就是創建一個Python,這裡我們創建一個名為test.py的腳本,然後把urllib2庫導入到腳本中,然後爬取一個url地址的內容並打印出來,腳本內容如下:

腳本創建完畢後,在命令行中定位到當前腳本的目錄,然後運行指令:

這樣,在urlopen中所輸入的地址所指定的網頁內容就被打印出來,注意要打印response.read()的內容而不是直接打印response。這是因為urlopen其實只是打開一個URL地址,而真正讀取被打開地址內容,是通過read方法來實現的。
可以進行簡單的封裝,得到一個獲取指定url的html內容的方法,如下:

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/220799.html