python爬取漫畫台（爬取漫畫圖片）

本文目錄一覽：

1、用python寫一個爬蟲有多難
2、Python中怎麼用爬蟲爬
3、python爬蟲如何分析一個將要爬取的網站？
4、python基礎爬蟲項目有哪些？
5、求編程大佬 Python 爬蟲
6、python里爬網頁是幹什麼的

用python寫一個爬蟲有多難

爬蟲是互聯網上最常見的一種東西了吧。

爬蟲這東西每天都在網上爬大量的信息，各大搜索引擎廠商每天都有上百萬的爬蟲在網路上活動，這些爬蟲的作用就是給搜索引擎採集互聯網上最新的內容，採集來的內容經過分類、加工之後，進入搜索引擎的索引。這是爬蟲最常見的應用。

關於搜索引擎的理論非常多，應該已經形成系統的理論和方法了。這裡不再多追求搜索引擎的細節，只來看看爬蟲如何爬有效的信息。

ps. 這個博客已經很久沒有更新了。現在時間越來越少，平時鮮有時間來更新博客了。

最近某人發現，python其實是一種很適合寫爬蟲的語言，而且python越用越順手。現在若是有人問我「c++和c#學哪一個？「之類的問題的時候，我一定會說，學python吧，因為生命短暫，你應該學習python。

所謂爬蟲，就是把網頁的html下載下來，然後從裡面提取出來有用的信息，這些有用的信息一般就是正文，圖片，鏈接一類的信息。

針對特定網站的爬蟲就更好寫了，用正則表達式，把網頁里的鏈接信息找到，然後找到需要的信息，保存在本地，然後進入下一個鏈接重複上一次的過程。

下面的腳本演示如何從加菲貓的官網上把從1978年至今的所有漫畫全部下載下來

import os,urllib,urllib2,re

hosts = “http://**********”

#initpos = “/mobile/garfield/1978/06/19”

initpos =”/mobile/garfield/1979/08/08″

pname = re.compile(”’span class=”authorText”.+?em(.*?)/em/span”’)

pcomic = re.compile(”’div id=”comic”.+?src=”(.*?)”.+?/div”’)

pnext = re.compile(”’a href=”(.*?)” class=”next””’)

def getpage(url):

print url

req = urllib2.Request(url)

req.add_header(“User-Agent”,”Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:21.0) Gecko/20100101 Firefox/21.0″)

req.add_header(“If-None-Match”,”c1858c2845ca9501136ca83d624f8d4d”)

u = urllib2.urlopen(req).read()

return u

def getnextpos(content,patten):

r = patten.findall(content)

for x in r:

print ‘find next: ‘,x

return x

def savecomic(content,patten):

r = patten.findall(content)

print ‘find commic:’,r

r2 = pname.findall(content)

print ‘find name:’,r2

urlcomic = r[0]

u = urllib.urlopen(urlcomic).read()

name = r2[0].replace(‘ ‘,”).split(‘,’)

year = name[-1]

day = name[-2]

filename = ‘test.jpg’

if not os.path.exists(year):

os.makedirs(year)

# is gif file ,the name the file as gif

if ((u[0] is ‘G’) and (u[1] is ‘I’) and (u[2] is ‘F’)):

filename = year+day+’.gif’

else:

filename = year+day+’.jpg’

f = file(year+”/”+filename,”wb+”)

f.write(u)

f.close()

def main():

url = hosts+initpos

while(True):

c = getpage(url)

savecomic(c,pcomic)

u = getnextpos(c,pnext)

if u is None:

break

else:

url = hosts+u

if __name__ == ‘__main__’:

main()

Python中怎麼用爬蟲爬

Python爬蟲可以爬取的東西有很多，Python爬蟲怎麼學？簡單的分析下：

如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，互聯網可以獲取的數據越來越多，另一方面，像 Python這樣的編程語言提供越來越多的優秀工具，讓爬蟲變得簡單、容易上手。

利用爬蟲我們可以獲取大量的價值數據，從而獲得感性認識中不能得到的信息，比如：

知乎：爬取優質答案，為你篩選出各話題下最優質的內容。

淘寶、京東：抓取商品、評論及銷量數據，對各種商品及用戶的消費場景進行分析。

安居客、鏈家：抓取房產買賣及租售信息，分析房價變化趨勢、做不同區域的房價分析。

拉勾網、智聯：爬取各類職位信息，分析各行業人才需求情況及薪資水平。

雪球網：抓取雪球高回報用戶的行為，對股票市場進行分析和預測。

爬蟲是入門Python最好的方式，沒有之一。Python有很多應用的方向，比如後台開發、web開發、科學計算等等，但爬蟲對於初學者而言更友好，原理簡單，幾行代碼就能實現基本的爬蟲，學習的過程更加平滑，你能體會更大的成就感。

掌握基本的爬蟲後，你再去學習Python數據分析、web開發甚至機器學習，都會更得心應手。因為這個過程中，Python基本語法、庫的使用，以及如何查找文檔你都非常熟悉了。

對於小白來說，爬蟲可能是一件非常複雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python，然後哼哧哼哧系統學習 Python 的每個知識點，很久之後發現仍然爬不了數據；有的人則認為先要掌握網頁的知識，遂開始 HTMLCSS，結果入了前端的坑，瘁……

但掌握正確的方法，在短時間內做到能夠爬取主流網站的數據，其實非常容易實現，但建議你從一開始就要有一個具體的目標。

在目標的驅動下，你的學習才會更加精準和高效。那些所有你認為必須的前置知識，都是可以在完成目標的過程中學到的。這裡給你一條平滑的、零基礎快速入門的學習路徑。

1.學習 Python 包並實現基本的爬蟲過程

2.了解非結構化數據的存儲

3.學習scrapy，搭建工程化爬蟲

4.學習資料庫知識，應對大規模數據存儲與提取

5.掌握各種技巧，應對特殊網站的反爬措施

6.分散式爬蟲，實現大規模並發採集，提升效率

python爬蟲如何分析一個將要爬取的網站？

首先，你去爬取一個網站，

你會清楚這個網站是屬於什麼類型的網站（新聞，論壇，貼吧等等）。

你會清楚你需要哪部分的數據。

你需要去想需要的數據你將如何編寫表達式去解析。

你會碰到各種反爬措施，無非就是各種百度各種解決。當爬取成本高於數據成本，你會選擇放棄。

你會利用你所學各種語言去解決你將要碰到的問題，利用各種語言的client組件去請求你想要爬取的URL，獲取到HTML，利用正則，XPATH去解析你想要的數據，然後利用sql存儲各類資料庫。

python基礎爬蟲項目有哪些？

我們上篇才講了面試中需要準備的內容，關於最後一點可能講的不是很詳細，小夥伴們很有對項目這塊很感興趣。畢竟所有的理論知識最後都是通過實踐檢驗的，如果能有拿得出手的項目，面試中會大大的加分。下面小編就來跟大講講python的爬蟲項目有哪些以及該學點什麼內容。

wesome-spider

這一項目收集了100多個爬蟲，默認使用了Python作為爬蟲語言。你既可以在這個項目中，找到爬取Bilibili視頻的爬蟲，也可以使用爬蟲，通過豆瓣評分和評價人數等各項數據，來挖掘那些隱藏的好書，甚至還可以用來爬取京東、鏈家、網盤等生活所需的數據。此外，這個項目還提供了一些很有意思的爬蟲，比如爬取神評論、妹子圖片、心靈毒雞湯等等，既有實用爬蟲，也有惡搞自嗨，滿足了大部分人實用爬蟲的需求。

Nyspider

Nyspider也非常厲害，如果你想獲得「信息」，它是一個不錯的選擇。在這個項目里，你既能獲取鏈家的房產信息，也可以批量爬取A股的股東信息，貓眼電影的票房數據、還可以爬取獵聘網的招聘信息、獲取融資數據等等，可謂是爬取數據，獲取信息的好手。

python-spider

這個項目是ID為Jack-Cherish的東北大學學生整理的python爬蟲資料，涵蓋了很多爬蟲實戰項目，如下載漫畫、答題輔助系統、搶票小助手等等等等。如果你已經學會了爬蟲，急切得像找一些項目練手，這裡就可以滿足你的這一需求。當然，W3Cschool上也有很多爬蟲實戰項目，有需要的同學，也可以拿來作為練習使用。

以上的3個模塊基於GitHub中的部分內容，感興趣的小夥伴也可以了解下其他的模塊，畢竟GitHub使用也比較廣泛。更多Python學習推薦:PyThon學習網教學中心。

求編程大佬 Python 爬蟲

一：Beautiful Soup 爬蟲

requests庫的安裝與使用

安裝beautiful soup 爬蟲環境

beautiful soup 的解析器

re庫正則表達式的使用

bs4 爬蟲實踐：獲取百度貼吧的內容

bs4 爬蟲實踐：獲取雙色球中獎信息

bs4 爬蟲實踐：獲取起點小說信息

bs4 爬蟲實踐：獲取電影信息

bs4 爬蟲實踐：獲取悅音台榜單

二： Scrapy 爬蟲框架

安裝Scrapy

Scrapy中的選擇器 Xpath和CSS

Scrapy 爬蟲實踐：今日影視

Scrapy 爬蟲實踐：天氣預報

Scrapy 爬蟲實踐：獲取代理

Scrapy 爬蟲實踐：糗事百科

Scrapy 爬蟲實踐：爬蟲相關攻防（代理池相關）

三：瀏覽器模擬爬蟲

Mechanize模塊的安裝與使用

利用Mechanize獲取樂音台公告

Selenium模塊的安裝與使用

瀏覽器的選擇 PhantomJS

Selenium PhantomJS 實踐：獲取代理

Selenium PhantomJS 實踐：漫畫爬蟲

python里爬網頁是幹什麼的

你看下yahoo pipes和yql以及谷歌apps script的例子就知道爬蟲有多好用了，Py只是寫個性化的東西比較好用。

舉個小例子，比如你看漫畫，可以用爬蟲抓取目錄頁的內容，分析之，一旦有更新自動發信到微信

原創文章，作者：HUASS，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/316928.html