本文目錄一覽:
- 1、Python爬蟲爬取圖片這個報錯怎麼處理?
- 2、python抓取網頁上圖片
- 3、python抓取百度隨機抓取百度街景圖片
- 4、python 怎麼把爬到的圖片保存下來?
- 5、python爬取MM圖片
- 6、Python如何爬取百度圖片?
Python爬蟲爬取圖片這個報錯怎麼處理?
你好!你的錯誤原因在於html頁面獲取到的img標籤src屬性中的鏈接,可能是因為src中的url格式是這樣的:
img src=”//hao123.com/xxx/xxx/xxx/”/img
這樣獲取到的鏈接都沒有帶上協議:http或者https。而導致程序拋出ValueError的錯誤異常。
因為正常的url格式應該類似這樣的:
即 協議://用戶名:密碼@子域名.域名.頂級域名:埠號/目錄/文件名.文件後綴?參數=值#標誌
參考網頁鏈接
可將代碼中第一個for循環中download_links.append修改為:
for pic_tag in soup.find_all(‘img’):
pic_link = pic_tag.get(‘src’)
download_links.append(‘http:’ + pic_link)
python抓取網頁上圖片
正則表達式匹配的url有錯誤
for x in add:
print x # 這裡可以看到報錯的時候是 url 錯誤
dirpath = os.path.join(‘C:\\Users\\lilinan\\Desktop\\新建文件夾’,’%s.jpg’ % t)
urllib.request.urlretrieve(x,dirpath)
t+=1
python抓取百度隨機抓取百度街景圖片
最近公司有一個需求就是隨機抓取10萬張百度街景地圖,剛開始沒有什麼頭緒,最後還是解決了,在這裡分享一下。
毫無疑問,這些圖片肯定是非同步載入的,打開百度地圖的街景模式,f12打開開發者模式,清空所有響應,並點擊向前
可以看到產生了很多的圖片
python 怎麼把爬到的圖片保存下來?
#建立單級目錄
filename=r’E:\NASDownload\視頻\一行代碼爬視頻\爬取圖片以此
for i in range(0,len(imageinfo)):
path=”{}{}{}{}”.format(filename,’\\’,i,’.jpg’)
res=requests.get(url=imageinfo[i]).content
time.sleep(5)
with open(path,’wb’) as f:
f.write(res)
f.close()
python爬取MM圖片
其實我之前寫過一篇爬取MM圖片的文章,但是礙於尺度的問題,文章改了又改才過審,但是作為一個爬蟲,怎麼能沒有爬取圖片的案例呢,所以我又發現了一個不錯的網站,裡面的MM也不錯,而且尺度也正常,話不多說,開爬!!
從圖可以看出每一張圖片對應一個鏈接,每一個鏈接裡面就是該圖片這個模特的所有圖片,打開開發者工具來具體分析一下,可以分析出這個網頁的圖片載入都是動態載入的,你滾輪滑動向下,圖片一直會載入,但是網站沒有改變,如圖:
既然知道了是動態載入的網頁,那我們就直接定位到XHR選項,定位到包含有圖片數據的網頁:
可以看出,這個包含圖片的網址就是json數據裡面的對應的url選項裡面的網址。每一個模特的系列圖片就包含在這個網址裡面,我們只需要請求這個網址,得到請求數據後,就可以提取出圖片的真實鏈接地址了。
Python如何爬取百度圖片?
幾乎所有的網站都會有反爬機制,這就需要在爬取網頁時攜帶一些特殊參數,比如:user-agent、Cookie等等,可以在寫代碼的時候用工具將所有參數都帶上。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/227804.html