python爬蟲25,python爬蟲2層圖片

本文目錄一覽：

1、python爬蟲是幹嘛的
2、python爬蟲項目實戰：爬取用戶的所有信息，如性別、年齡等
3、Python爬蟲基本知識：什麼是爬蟲
4、如何用Python做爬蟲？

python爬蟲是幹嘛的

爬蟲技術是一種自動化程序。

爬蟲就是一種可以從網頁上抓取數據信息並保存的自動化程序，它的原理就是模擬瀏覽器發送網絡請求，接受請求響應，然後按照一定的規則自動抓取互聯網數據。

搜索引擎通過這些爬蟲從一個網站爬到另一個網站，跟蹤網頁中的鏈接，訪問更多的網頁，這個過程稱為爬行，這些新的網址會被存入數據庫等待搜索。簡而言之，爬蟲就是通過不間斷地訪問互聯網，然後從中獲取你指定的信息並返回給你。而我們的互聯網上，隨時都有無數的爬蟲在爬取數據，並返回給使用者。

爬蟲技術的功能

1、獲取網頁

獲取網頁可以簡單理解為向網頁的服務器發送網絡請求，然後服務器返回給我們網頁的源代碼，其中通信的底層原理較為複雜，而Python給我們封裝好了urllib庫和requests庫等，這些庫可以讓我們非常簡單的發送各種形式的請求。

2、提取信息

獲取到的網頁源碼內包含了很多信息，想要進提取到我們需要的信息，則需要對源碼還要做進一步篩選。可以選用python中的re庫即通過正則匹配的形式去提取信息，也可以採用BeautifulSoup庫（bs4）等解析源代碼，除了有自動編碼的優勢之外，bs4庫還可以結構化輸出源代碼信息，更易於理解與使用。

3、保存數據

提取到我們需要的有用信息後，需要在Python中把它們保存下來。可以使用通過內置函數open保存為文本數據，也可以用第三方庫保存為其它形式的數據，例如可以通過pandas庫保存為常見的xlsx數據，如果有圖片等非結構化數據還可以通過pymongo庫保存至非結構化數據庫中。

python爬蟲項目實戰：爬取用戶的所有信息，如性別、年齡等

python爬蟲項目實戰：

爬取糗事百科用戶的所有信息，包括用戶名、性別、年齡、內容等等。

10個步驟實現項目功能，下面開始實例講解：

1.導入模塊

import re

import urllib.request

from bs4 import BeautifulSoup

2.添加頭文件，防止爬取過程被拒絕鏈接

def qiuShi(url,page):

################### 模擬成高仿度瀏覽器的行為 ##############

heads ={

‘Connection’:’keep-alive’,

‘Accept-Language’:’zh-CN,zh;q=0.9′,

‘Accept’:’text/html,application/xhtml+xml,application/xml;

q=0.9,image/webp,image/apng, / ;q=0.8′,

‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36

(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36′,

}

headall = []

for key,value in heads.items():

items = (key,value)

headall.append(items)

opener = urllib.request.build_opener()

opener.addheaders = headall

urllib.request.install_opener(opener)

data = opener.open(url).read().decode()

################## end ########################################

3.創建soup解析器對象

soup = BeautifulSoup(data,’lxml’)

x = 0

4.開始使用BeautifulSoup4解析器提取用戶名信息

############### 獲取用戶名 ########################

name = []

unames = soup.find_all(‘h2’)

for uname in unames:

name.append(uname.get_text())

#################end#############################

5.提取發表的內容信息

############## 發表的內容 #########################

cont = []

data4 = soup.find_all(‘div’,class_=’content’)

data4 = str(data4)

soup3 = BeautifulSoup(data4,’lxml’)

contents = soup3.find_all(‘span’)

for content in contents:

cont.append(content.get_text())

##############end####################################

6.提取搞笑指數

#################搞笑指數##########################

happy = []

data2 = soup.find_all(‘span’,class_=”stats-vote”)

data2 = str(data2) # 將列錶轉換成字符串形式才可以使用

soup1 = BeautifulSoup(data2,’lxml’)

happynumbers = soup1.find_all(‘i’,class_=”number”)

for happynumber in happynumbers:

happy.append(happynumber.get_text())

##################end#############################

7.提取評論數

############## 評論數 ############################

comm = []

data3 = soup.find_all(‘a’,class_=’qiushi_comments’)

data3 = str(data3)

soup2 = BeautifulSoup(data3,’lxml’)

comments = soup2.find_all(‘i’,class_=”number”)

for comment in comments:

comm.append(comment.get_text())

############end#####################################

8.使用正則表達式提取性別和年齡

######## 獲取性別和年齡 ##########################

pattern1 = ‘div class=”articleGender (w ?)Icon”(d ?)/div’

sexages = re.compile(pattern1).findall(data)

9.設置用戶所有信息輸出的格局設置

################## 批量輸出用戶的所以個人信息 #################

print()

for sexage in sexages:

sa = sexage

print(‘ ‘ 17, ‘= = 第’, page, ‘頁-第’, str(x+1) + ‘個用戶 = = ‘,’ ‘ 17)

print(‘【用戶名】：’,name[x],end=”)

print(‘【性別】：’,sa[0],’ 【年齡】：’,sa[1])

print(‘【內容】：’,cont[x])

print(‘【搞笑指數】：’,happy[x],’ 【評論數】：’,comm[x])

print(‘ ‘ 25,’ 三八分割線 ‘,’ ‘ 25)

x += 1

###################end##########################

10.設置循環遍歷爬取13頁的用戶信息

for i in range(1,14):

url = ‘ ‘+str(i)+’/’

qiuShi(url,i)

運行結果，部分截圖：

Python爬蟲基本知識：什麼是爬蟲

世界上80%的爬蟲是基於Python開發的，學好爬蟲技能，可為後續的大數據分析、挖掘、機器學習等提供重要的數據源。

什麼是爬蟲？

網絡爬蟲（又被稱為網頁蜘蛛，網絡機械人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

其實通俗的講就是通過程序去獲取web頁面上自己想要的數據，也就是自動抓取數據

爬蟲可以做什麼？

你可以用爬蟲爬圖片，爬取視頻等等你想要爬取的數據，只要你能通過瀏覽器訪問的數據都可以通過爬蟲獲取。

如何用Python做爬蟲？

在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。

我們最常規的做法就是通過鼠標右鍵，選擇另存為。但有些圖片鼠標右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具截取下來，但這樣就降低圖片的清晰度。好吧其實你很厲害的，右鍵查看頁面源代碼。

我們可以通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的代碼爬取到本地。下面就看看如何使用python來實現這樣一個功能。

具體步驟

獲取整個頁面數據首先我們可以先獲取要下載圖片的整個頁面信息。

getjpg.py

#coding=utf-8import urllibdef getHtml(url):

page = urllib.urlopen(url)

html = page.read() return html

html = getHtml(“”)print html

Urllib 模塊提供了讀取web頁面數據的接口，我們可以像讀取本地文件一樣讀取www和ftp上的數據。首先，我們定義了一個getHtml()函數:

urllib.urlopen()方法用於打開一個URL地址。

read()方法用於讀取URL上的數據，向getHtml()函數傳遞一個網址，並把整個頁面下載下來。執行程序就會把整個網頁打印輸出。

2.篩選頁面中想要的數據

Python 提供了非常強大的正則表達式，我們需要先要了解一點python 正則表達式的知識才行。

假如我們百度貼吧找到了幾張漂亮的壁紙，通過到前段查看工具。找到了圖片的地址，如：src=」」pic_ext=」jpeg」

修改代碼如下：

import reimport urllibdef getHtml(url):

page = urllib.urlopen(url)

html = page.read() return htmldef getImg(html):

reg = r’src=”(.+?\.jpg)” pic_ext’

imgre = re.compile(reg)

imglist = re.findall(imgre,html) return imglist

html = getHtml(“”)print getImg(html)

我們又創建了getImg()函數，用於在獲取的整個頁面中篩選需要的圖片連接。re模塊主要包含了正則表達式：

re.compile() 可以把正則表達式編譯成一個正則表達式對象.

re.findall() 方法讀取html 中包含 imgre（正則表達式）的數據。

運行腳本將得到整個頁面中包含圖片的URL地址。

3.將頁面篩選的數據保存到本地

把篩選的圖片地址通過for循環遍歷並保存到本地，代碼如下：

#coding=utf-8import urllibimport redef getHtml(url):

page = urllib.urlopen(url)

html = page.read() return htmldef getImg(html):

reg = r’src=”(.+?\.jpg)” pic_ext’

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

x = 0 for imgurl in imglist:

urllib.urlretrieve(imgurl,’%s.jpg’ % x)

x+=1html = getHtml(“”)print getImg(html)

這裡的核心是用到了urllib.urlretrieve()方法，直接將遠程數據下載到本地。

通過一個for循環對獲取的圖片連接進行遍歷，為了使圖片的文件名看上去更規範，對其進行重命名，命名規則通過x變量加1。保存的位置默認為程序的存放目錄。

程序運行完成，將在目錄下看到下載到本地的文件。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/231955.html

python爬蟲25,python爬蟲2層圖片

本文目錄一覽：

python爬蟲是幹嘛的

python爬蟲項目實戰：爬取用戶的所有信息，如性別、年齡等

Python爬蟲基本知識：什麼是爬蟲

如何用Python做爬蟲？

相關推薦

發表回復