python爬取天堂網圖片,python爬取電影天堂

本文目錄一覽：

1、如何批量下載天堂圖片網裡的圖片及保存方法？
2、如何用Python爬取數據？
3、linux下python怎麼寫爬蟲獲取圖片

如何批量下載天堂圖片網裡的圖片及保存方法？

在天堂網頁里複製要下載的圖片頁面鏈接地址，然後粘貼到軟件上，立即下載就行了。

如何用Python爬取數據？

方法/步驟

在做爬取數據之前，你需要下載安裝兩個東西，一個是urllib,另外一個是python-docx。

請點擊輸入圖片描述

然後在python的編輯器中輸入import選項，提供這兩個庫的服務

請點擊輸入圖片描述

urllib主要負責抓取網頁的數據，單純的抓取網頁數據其實很簡單，輸入如圖所示的命令，後面帶鏈接即可。

請點擊輸入圖片描述

抓取下來了，還不算，必須要進行讀取，否則無效。

請點擊輸入圖片描述

接下來就是抓碼了，不轉碼是完成不了保存的，將讀取的函數read轉碼。再隨便標記一個比如XA。

請點擊輸入圖片描述

最後再輸入三句，第一句的意思是新建一個空白的word文檔。

第二句的意思是在文檔中添加正文段落，將變量XA抓取下來的東西導進去。

第三句的意思是保存文檔docx，名字在括號裡面。

請點擊輸入圖片描述

這個爬下來的是源代碼，如果還需要篩選的話需要自己去添加各種正則表達式。

linux下python怎麼寫爬蟲獲取圖片

跟linux有什麼關係，python是跨平台的，爬取圖片的代碼如下：

import urllib.requestimport osimport randomdef url_open(url):

req=urllib.request.Request(url) #為請求設置user-agent,使得程序看起來更像一個人類

req.add_header(‘User-Agent’,’Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0′) #代理IP，使用戶能以不同IP訪問，從而防止被服務器發現

”’iplist=[‘1.193.162.123:8000′,’1.193.162.91:8000′,’1.193.163.32:8000’]

proxy_support=urllib.request.ProxyHandler({‘http’:random.choice(iplist)})

opener=urllib.request.build_opener(proxy_support)

opener.addheaders=[(‘User-Agent’,’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER’)]

urllib.request.install_opener(opener)”’

response=urllib.request.urlopen(req)

html=response.read() return htmldef get_page(url):

html=url_open(url).decode(‘utf-8’)

a=html.find(‘current-comment-page’)+23

b=html.find(‘]’,a) #print(html[a:b])

return html[a:b]def find_imgs(url):

html=url_open(url).decode(‘utf-8’)

img_addrs=[]

a=html.find(‘img src=’) while a!=-1:

b=html.find(‘.jpg’,a,a+140) if b!=-1: if html[a+9]!=’h’:

img_addrs.append(‘http:’+html[a+9:b+4]) else:

img_addrs.append(html[a+9:b+4]) else:

b=a+9

a=html.find(‘img src=’,b) for each in img_addrs:

print(each+’我的打印’) return img_addrsdef save_imgs(folder,img_addrs):

for each in img_addrs: #print(‘one was saved’)

filename=each.split(‘/’)[-1] with open(filename,’wb’) as f:

img=url_open(each)

f.write(img)def download_mm(folder=’ooxx’,pages=10):

os.mkdir(folder)

os.chdir(folder)

url=””

page_num=int(get_page(url)) for i in range(pages):

page_num=page_num-1

page_url=url+’page-‘+str(page_num)+’#comments’

img_addrs=find_imgs(page_url)

save_imgs(folder,img_addrs)if __name__==’__main__’:

download_mm()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374

完成

運行結果

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/248075.html

python爬取天堂網圖片,python爬取電影天堂

本文目錄一覽：

如何批量下載天堂圖片網裡的圖片及保存方法 ？

如何用Python爬取數據？

linux下python怎麼寫爬蟲獲取圖片

相關推薦

發表回復

如何批量下載天堂圖片網裡的圖片及保存方法？