本文目錄一覽:
- 1、python爬蟲項目實戰:爬取用戶的所有信息,如性別、年齡等
- 2、如何用Python爬取數據?
- 3、python3.4 + requests + re 仿寫糗事百科爬蟲,遇到一個疑惑,求助
- 4、python爬蟲,怎麼在爬段子的同時爬段子的附圖?
- 5、python爬蟲糗事百科入門求助
python爬蟲項目實戰:爬取用戶的所有信息,如性別、年齡等
python爬蟲項目實戰:
爬取糗事百科用戶的所有信息,包括用戶名、性別、年齡、內容等等。
10個步驟實現項目功能,下面開始實例講解:
1.導入模塊
import re
import urllib.request
from bs4 import BeautifulSoup
2.添加頭文件,防止爬取過程被拒絕鏈接
def qiuShi(url,page):
################### 模擬成高仿度瀏覽器的行為 ##############
heads ={
‘Connection’:’keep-alive’,
‘Accept-Language’:’zh-CN,zh;q=0.9′,
‘Accept’:’text/html,application/xhtml+xml,application/xml;
q=0.9,image/webp,image/apng, / ;q=0.8′,
‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36′,
}
headall = []
for key,value in heads.items():
items = (key,value)
headall.append(items)
opener = urllib.request.build_opener()
opener.addheaders = headall
urllib.request.install_opener(opener)
data = opener.open(url).read().decode()
################## end ########################################
3.創建soup解析器對象
soup = BeautifulSoup(data,’lxml’)
x = 0
4.開始使用BeautifulSoup4解析器提取用戶名信息
############### 獲取用戶名 ########################
name = []
unames = soup.find_all(‘h2’)
for uname in unames:
name.append(uname.get_text())
#################end#############################
5.提取發表的內容信息
############## 發表的內容 #########################
cont = []
data4 = soup.find_all(‘div’,class_=’content’)
data4 = str(data4)
soup3 = BeautifulSoup(data4,’lxml’)
contents = soup3.find_all(‘span’)
for content in contents:
cont.append(content.get_text())
##############end####################################
6.提取搞笑指數
#################搞笑指數##########################
happy = []
data2 = soup.find_all(‘span’,class_=”stats-vote”)
data2 = str(data2) # 將列錶轉換成字符串形式才可以使用
soup1 = BeautifulSoup(data2,’lxml’)
happynumbers = soup1.find_all(‘i’,class_=”number”)
for happynumber in happynumbers:
happy.append(happynumber.get_text())
##################end#############################
7.提取評論數
############## 評論數 ############################
comm = []
data3 = soup.find_all(‘a’,class_=’qiushi_comments’)
data3 = str(data3)
soup2 = BeautifulSoup(data3,’lxml’)
comments = soup2.find_all(‘i’,class_=”number”)
for comment in comments:
comm.append(comment.get_text())
############end#####################################
8.使用正則表達式提取性別和年齡
######## 獲取性別和年齡 ##########################
pattern1 = ‘div class=”articleGender (w ?)Icon”(d ?)/div’
sexages = re.compile(pattern1).findall(data)
9.設置用戶所有信息輸出的格局設置
################## 批量輸出用戶的所以個人信息 #################
print()
for sexage in sexages:
sa = sexage
print(‘ ‘ 17, ‘= = 第’, page, ‘頁-第’, str(x+1) + ‘個用戶 = = ‘,’ ‘ 17)
print(‘【用戶名】:’,name[x],end=”)
print(‘【性別】:’,sa[0],’ 【年齡】:’,sa[1])
print(‘【內容】:’,cont[x])
print(‘【搞笑指數】:’,happy[x],’ 【評論數】:’,comm[x])
print(‘ ‘ 25,’ 三八分割線 ‘,’ ‘ 25)
x += 1
###################end##########################
10.設置循環遍歷爬取13頁的用戶信息
for i in range(1,14):
url = ‘ ‘+str(i)+’/’
qiuShi(url,i)
運行結果,部分截圖:
如何用Python爬取數據?
方法/步驟
在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx。
請點擊輸入圖片描述
然後在python的編輯器中輸入import選項,提供這兩個庫的服務
請點擊輸入圖片描述
urllib主要負責抓取網頁的數據,單純的抓取網頁數據其實很簡單,輸入如圖所示的命令,後面帶鏈接即可。
請點擊輸入圖片描述
抓取下來了,還不算,必須要進行讀取,否則無效。
請點擊輸入圖片描述
5
接下來就是抓碼了,不轉碼是完成不了保存的,將讀取的函數read轉碼。再隨便標記一個比如XA。
請點擊輸入圖片描述
6
最後再輸入三句,第一句的意思是新建一個空白的word文檔。
第二句的意思是在文檔中添加正文段落,將變量XA抓取下來的東西導進去。
第三句的意思是保存文檔docx,名字在括號裏面。
請點擊輸入圖片描述
7
這個爬下來的是源代碼,如果還需要篩選的話需要自己去添加各種正則表達式。
python3.4 + requests + re 仿寫糗事百科爬蟲,遇到一個疑惑,求助
物信息、統計、網頁製作、計算等多個領域都體現出了強大的功能。python和其他腳本語言如java、R、Perl 一樣,都可以直接在命令行里運行腳本程序。工具/原料
python;CMD命令行;windows操作系統
方法/步驟
1、首先下載安裝python,建議安裝2.7版本以上,3.0版本以下,由於3.0版本以上不向下兼容,體驗較差。
2、打開文本編輯器,推薦editplus,notepad等,將文件保存成 .py格式,editplus和notepad支持識別python語法。
腳本第一行一定要寫上 #!usr/bin/python
表示該腳本文件是可執行python腳本
如果python目錄不在usr/bin目錄下,則替換成當前python執行程序的目錄。
3、編寫完腳本之後注意調試、可以直接用editplus調試。調試方法可自行百度。腳本寫完之後,打開CMD命令行,前提是python 已經被加入到環境變量中,如果沒有加入到環境變量,請百度
4、在CMD命令行中,輸入 「python」 + 「空格」,即 」python 「;將已經寫好的腳本文件拖拽到當前光標位置,然後敲回車運行即可。
python爬蟲,怎麼在爬段子的同時爬段子的附圖?
首先:取到相應圖片的url地址
然後:下載
①使用urllib urllib.urlretrieve(url, path) 進行下載保存
②使用 open() 二進制形式 讀寫文件
建議使用 第一種方式下載
python爬蟲糗事百科入門求助
你可以用一下BeautifulSoup這個,它是處理這種抓取下來的網頁,直接利用標籤和一些id、class來查找元素的,比較方便
原創文章,作者:簡單一點,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/127965.html