用python爬取扇貝單詞庫,扇貝 python

本文目錄一覽:

如何用 Python 爬取需要登錄的網站

最近我必須執行一項從一個需要登錄的網站上爬取一些網頁的操作。它沒有我想象中那麼簡單,因此我決定為它寫一個輔助教程。

在本教程中,我們將從我們的bitbucket賬戶中爬取一個項目列表。

教程中的代碼可以從我的 Github 中找到。

我們將會按照以下步驟進行:

提取登錄需要的詳細信息

執行站點登錄

爬取所需要的數據

在本教程中,我使用了以下包(可以在 requirements.txt 中找到):

Python

1

2

   

requests

lxml

   

步驟一:研究該網站

打開登錄頁面

進入以下頁面  “bitbucket.org/account/signin”。你會看到如下圖所示的頁面(執行註銷,以防你已經登錄)

仔細研究那些我們需要提取的詳細信息,以供登錄之用

在這一部分,我們會創建一個字典來保存執行登錄的詳細信息:

1. 右擊 “Username or email” 字段,選擇“查看元素”。我們將使用 “name” 屬性為 “username” 的輸入框的值。“username”將會是 key 值,我們的用戶名/電子郵箱就是對應的 value 值(在其他的網站上這些 key 值可能是 “email”,“ user_name”,“ login”,等等)。

2. 右擊 “Password” 字段,選擇“查看元素”。在腳本中我們需要使用 “name” 屬性為 “password” 的輸入框的值。“password” 將是字典的 key  值,我們輸入的密碼將是對應的 value 值(在其他網站key值可能是 “userpassword”,“loginpassword”,“pwd”,等等)。

3. 在源代碼頁面中,查找一個名為 “csrfmiddlewaretoken” 的隱藏輸入標籤。“csrfmiddlewaretoken” 將是 key 值,而對應的 value 值將是這個隱藏的輸入值(在其他網站上這個 value 值可能是一個名為 “csrftoken”,“ authenticationtoken” 的隱藏輸入值)。列如:“Vy00PE3Ra6aISwKBrPn72SFml00IcUV8”。

最後我們將會得到一個類似這樣的字典:

Python

1

2

3

4

5

   

payload = {

“username”: “lt;USER NAMEgt;”,

“password”: “lt;PASSWORDgt;”,

“csrfmiddlewaretoken”: “lt;CSRF_TOKENgt;”

}

   

請記住,這是這個網站的一個具體案例。雖然這個登錄表單很簡單,但其他網站可能需要我們檢查瀏覽器的請求日誌,並找到登錄步驟中應該使用的相關的 key 值和 value 值。

步驟2:執行登錄網站

對於這個腳本,我們只需要導入如下內容:

Python

1

2

   

import requests

from lxml import html

   

首先,我們要創建 session 對象。這個對象會允許我們保存所有的登錄會話請求。

Python

1

   

session_requests = requests.session()

   

第二,我們要從該網頁上提取在登錄時所使用的 csrf 標記。在這個例子中,我們使用的是 lxml 和 xpath 來提取,我們也可以使用正則表達式或者其他的一些方法來提取這些數據。

Python

1

2

3

4

5

   

login_url = “n/?next=/”

result = session_requests.get(login_url)

tree = html.fromstring(result.text)

authenticity_token = list(set(tree.xpath(“//input[@name=’csrfmiddlewaretoken’]/@value”)))[0]

   

**更多關於xpath 和lxml的信息可以在這裡找到。

接下來,我們要執行登錄階段。在這一階段,我們發送一個 POST 請求給登錄的 url。我們使用前面步驟中創建的 payload 作為 data 。也可以為該請求使用一個標題並在該標題中給這個相同的 url 添加一個參照鍵。

Python

1

2

3

4

5

   

result = session_requests.post(

login_url,

data = payload,

headers = dict(referer=login_url)

)

   

步驟三:爬取內容

現在,我們已經登錄成功了,我們將從 bitbucket dashboard 頁面上執行真正的爬取操作。

Python

1

2

3

4

5

   

url = ‘/overview’

result = session_requests.get(

url,

headers = dict(referer = url)

)

   

為了測試以上內容,我們從 bitbucket dashboard 頁面上爬取了項目列表。我們將再次使用 xpath 來查找目標元素,清除新行中的文本和空格並打印出結果。如果一切都運行 OK,輸出結果應該是你 bitbucket 賬戶中的 buckets / project 列表。

Python

1

2

3

4

5

   

tree = html.fromstring(result.content)

bucket_elems = tree.findall(“.//span[@class=’repo-name’]/”)

bucket_names = [bucket.text_content.replace(“n”, “”).strip() for bucket in bucket_elems]

print bucket_names

   

你也可以通過檢查從每個請求返回的狀態代碼來驗證這些請求結果。它不會總是能讓你知道登錄階段是否是成功的,但是可以用來作為一個驗證指標。

例如:

Python

1

2

   

result.ok # 會告訴我們最後一次請求是否成功

result.status_code # 會返回給我們最後一次請求的狀態

   

Python的爬蟲框架哪個最好用

1、Scrapy:是一個為了抓取網站數據,提取數據結構性數據而編寫的應用框架,可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中,用這個框架可以輕鬆爬下來各種信息數據。

2、Pyspider:是一個用Python實現的功能強大的網絡爬蟲系統,能在瀏覽器界面上進行腳本的編寫,功能的調度和爬取結果的實時查看,後端使用常用的數據庫進行抓取結構的存儲,還能定時設置任務與任務優先級等。

3、Crawley:可以高速抓取對應網站內容,支持關係和非關係數據庫,數據可以導出為json、xml等。

4、Portia:是一個開源可視化爬蟲工具,可以讓您在不需要任何編程知識的情況下抓取網站,簡單地註解您感興趣的頁面,創建一個蜘蛛來從類似的頁面抓取數據。

5、Newspaper:可以用來提取新聞、文章和內容分析,使用多線程,支持10多種編程語言。

6、Beautiful Soup:是一個可以從HTML或者xml文件中提取數據的Python庫,它能通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式;同時幫你節省數小時甚至數天的工作時間。

7、Grab:是一個用於創建web刮板的Python框架,藉助Grab,您可以創建各種複雜的網頁抓取工具,從簡單的五行腳本到處理數萬個網頁的複雜異步網站抓取工具。Grab提供一個api用於執行網絡請求和處理接收到的內容。

8、Cola:是一個分布式的爬蟲框架,對於用戶來說,只需要編寫幾個特定的函數,而無需關注分布式運行的細節,任務會自動分配到多台機器上,整個過程對用戶是透明的。

如何用Python爬取數據?

方法/步驟

在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx。

請點擊輸入圖片描述

然後在python的編輯器中輸入import選項,提供這兩個庫的服務

請點擊輸入圖片描述

urllib主要負責抓取網頁的數據,單純的抓取網頁數據其實很簡單,輸入如圖所示的命令,後面帶鏈接即可。

請點擊輸入圖片描述

抓取下來了,還不算,必須要進行讀取,否則無效。

請點擊輸入圖片描述

5

接下來就是抓碼了,不轉碼是完成不了保存的,將讀取的函數read轉碼。再隨便標記一個比如XA。

請點擊輸入圖片描述

6

最後再輸入三句,第一句的意思是新建一個空白的word文檔。

第二句的意思是在文檔中添加正文段落,將變量XA抓取下來的東西導進去。

第三句的意思是保存文檔docx,名字在括號裡面。

請點擊輸入圖片描述

7

這個爬下來的是源代碼,如果還需要篩選的話需要自己去添加各種正則表達式。

Python中怎麼用爬蟲爬

Python爬蟲可以爬取的東西有很多,Python爬蟲怎麼學?簡單的分析下:

如果你仔細觀察,就不難發現,懂爬蟲、學習爬蟲的人越來越多,一方面,互聯網可以獲取的數據越來越多,另一方面,像 Python這樣的編程語言提供越來越多的優秀工具,讓爬蟲變得簡單、容易上手。

利用爬蟲我們可以獲取大量的價值數據,從而獲得感性認識中不能得到的信息,比如:

知乎:爬取優質答案,為你篩選出各話題下最優質的內容。

淘寶、京東:抓取商品、評論及銷量數據,對各種商品及用戶的消費場景進行分析。

安居客、鏈家:抓取房產買賣及租售信息,分析房價變化趨勢、做不同區域的房價分析。

拉勾網、智聯:爬取各類職位信息,分析各行業人才需求情況及薪資水平。

雪球網:抓取雪球高回報用戶的行為,對股票市場進行分析和預測。

爬蟲是入門Python最好的方式,沒有之一。Python有很多應用的方向,比如後台開發、web開發、科學計算等等,但爬蟲對於初學者而言更友好,原理簡單,幾行代碼就能實現基本的爬蟲,學習的過程更加平滑,你能體會更大的成就感。

掌握基本的爬蟲後,你再去學習Python數據分析、web開發甚至機器學習,都會更得心應手。因為這個過程中,Python基本語法、庫的使用,以及如何查找文檔你都非常熟悉了。

對於小白來說,爬蟲可能是一件非常複雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python,然後哼哧哼哧系統學習 Python 的每個知識點,很久之後發現仍然爬不了數據;有的人則認為先要掌握網頁的知識,遂開始 HTMLCSS,結果入了前端的坑,瘁……

但掌握正確的方法,在短時間內做到能夠爬取主流網站的數據,其實非常容易實現,但建議你從一開始就要有一個具體的目標。

在目標的驅動下,你的學習才會更加精準和高效。那些所有你認為必須的前置知識,都是可以在完成目標的過程中學到的。這裡給你一條平滑的、零基礎快速入門的學習路徑。

1.學習 Python 包並實現基本的爬蟲過程

2.了解非結構化數據的存儲

3.學習scrapy,搭建工程化爬蟲

4.學習數據庫知識,應對大規模數據存儲與提取

5.掌握各種技巧,應對特殊網站的反爬措施

6.分布式爬蟲,實現大規模並發採集,提升效率

如何用Python做爬蟲

1)首先你要明白爬蟲怎樣工作。

想象你是一隻蜘蛛,現在你被放到了互聯“網”上。那麼,你需要把所有的網頁都看一遍。怎麼辦呢?沒問題呀,你就隨便從某個地方開始,比如說人民日報的首頁,這個叫initial pages,用$表示吧。

在人民日報的首頁,你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了“國內新聞”那個頁面。太好了,這樣你就已經爬完了倆頁面(首頁和國內新聞)!暫且不用管爬下來的頁面怎麼處理的,你就想象你把這個頁面完完整整抄成了個html放到了你身上。

突然你發現, 在國內新聞這個頁面上,有一個鏈接鏈回“首頁”。作為一隻聰明的蜘蛛,你肯定知道你不用爬回去的吧,因為你已經看過了啊。所以,你需要用你的腦子,存下你已經看過的頁面地址。這樣,每次看到一個可能需要爬的新鏈接,你就先查查你腦子裡是不是已經去過這個頁面地址。如果去過,那就別去了。

好的,理論上如果所有的頁面可以從initial page達到的話,那麼可以證明你一定可以爬完所有的網頁。

那麼在python里怎麼實現呢?

很簡單

import Queue

initial_page = “初始化頁”

url_queue = Queue.Queue()

seen = set()

seen.insert(initial_page)

url_queue.put(initial_page)

while(True): #一直進行直到海枯石爛

if url_queue.size()0:

current_url = url_queue.get() #拿出隊例中第一個的url

store(current_url) #把這個url代表的網頁存儲好

for next_url in extract_urls(current_url): #提取把這個url里鏈向的url

if next_url not in seen:

seen.put(next_url)

url_queue.put(next_url)

else:

break

寫得已經很偽代碼了。

所有的爬蟲的backbone都在這裡,下面分析一下為什麼爬蟲事實上是個非常複雜的東西——搜索引擎公司通常有一整個團隊來維護和開發。

2)效率

如果你直接加工一下上面的代碼直接運行的話,你需要一整年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎需要爬下全網的內容了。

問題出在哪呢?需要爬的網頁實在太多太多了,而上面的代碼太慢太慢了。設想全網有N個網站,那麼分析一下判重的複雜度就是N*log(N),因為所有網頁要遍歷一次,而每次判重用set的話需要log(N)的複雜度。OK,OK,我知道python的set實現是hash——不過這樣還是太慢了,至少內存使用效率不高。

通常的判重做法是怎樣呢?Bloom Filter. 簡單講它仍然是一種hash的方法,但是它的特點是,它可以使用固定的內存(不隨url的數量而增長)以O(1)的效率判定url是否已經在set中。可惜天下沒有白吃的午餐,它的唯一問題在於,如果這個url不在set中,BF可以100%確定這個url沒有看過。但是如果這個url在set中,它會告訴你:這個url應該已經出現過,不過我有2%的不確定性。注意這裡的不確定性在你分配的內存足夠大的時候,可以變得很小很少。一個簡單的教程:Bloom Filters by Example

注意到這個特點,url如果被看過,那麼可能以小概率重複看一看(沒關係,多看看不會累死)。但是如果沒被看過,一定會被看一下(這個很重要,不然我們就要漏掉一些網頁了!)。 [IMPORTANT: 此段有問題,請暫時略過]

好,現在已經接近處理判重最快的方法了。另外一個瓶頸——你只有一台機器。不管你的帶寬有多大,只要你的機器下載網頁的速度是瓶頸的話,那麼你只有加快這個速度。用一台機子不夠的話——用很多台吧!當然,我們假設每台機子都已經進了最大的效率——使用多線程(python的話,多進程吧)。

3)集群化抓取

爬取豆瓣的時候,我總共用了100多台機器晝夜不停地運行了一個月。想象如果只用一台機子你就得運行100個月了…

那麼,假設你現在有100台機器可以用,怎麼用python實現一個分布式的爬取算法呢?

我們把這100台中的99台運算能力較小的機器叫作slave,另外一台較大的機器叫作master,那麼回顧上面代碼中的url_queue,如果我們能把這個queue放到這台master機器上,所有的slave都可以通過網絡跟master聯通,每當一個slave完成下載一個網頁,就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁,就把這個網頁上所有的鏈接送到master的queue里去。同樣,bloom filter也放到master上,但是現在master只發送確定沒有被訪問過的url給slave。Bloom Filter放到master的內存里,而被訪問過的url放到運行在master上的Redis里,這樣保證所有操作都是O(1)。(至少平攤是O(1),Redis的訪問效率見:LINSERT – Redis)

考慮如何用python實現:

在各台slave上裝好scrapy,那麼各台機子就變成了一台有抓取能力的slave,在master上裝好Redis和rq用作分布式隊列。

代碼於是寫成

#slave.py

current_url = request_from_master()

to_send = []

for next_url in extract_urls(current_url):

to_send.append(next_url)

store(current_url);

send_to_master(to_send)

#master.py

distributed_queue = DistributedQueue()

bf = BloomFilter()

initial_pages = “”

while(True):

if request == ‘GET’:

if distributed_queue.size()0:

send(distributed_queue.get())

else:

break

elif request == ‘POST’:

bf.put(request.url)

好的,其實你能想到,有人已經給你寫好了你需要的:darkrho/scrapy-redis · GitHub

4)展望及後處理

雖然上面用很多“簡單”,但是真正要實現一個商業規模可用的爬蟲並不是一件容易的事。上面的代碼用來爬一個整體的網站幾乎沒有太大的問題。

但是如果附加上你需要這些後續處理,比如

有效地存儲(數據庫應該怎樣安排)

有效地判重(這裡指網頁判重,咱可不想把人民日報和抄襲它的大民日報都爬一遍)

有效地信息抽取(比如怎麼樣抽取出網頁上所有的地址抽取出來,“朝陽區奮進路中華道”),搜索引擎通常不需要存儲所有的信息,比如圖片我存來幹嘛…

及時更新(預測這個網頁多久會更新一次)

如你所想,這裡每一個點都可以供很多研究者十數年的研究。雖然如此,

“路漫漫其修遠兮,吾將上下而求索”。

所以,不要問怎麼入門,直接上路就好了:)

python可以爬取什麼數據

一、爬取我們所需要的一線鏈接

channel_extract.py

這裡的一線鏈接也就是我們所說的大類鏈接:

from bs4 import BeautifulSoupimport requests

start_url = ”host_url = ”def get_channel_urls(url):

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text, ‘lxml’)

links = soup.select(‘.fenlei dt a’) #print(links)

for link in links:

page_url = host_url + link.get(‘href’)

print(page_url)#get_channel_urls(start_url)channel_urls = ”’

”’123456789101112131415161718192021222324252627282930313233343536

那麼拿我爬取的58同城為例就是爬取了二手市場所有品類的鏈接,也就是我說的大類鏈接;

找到這些鏈接的共同特徵,用函數將其輸出,並作為多行文本儲存起來。

二、獲取我們所需要的詳情頁面的鏈接和詳情信息

page_parsing.py

1、說說我們的數據庫:

先看代碼:

#引入庫文件from bs4 import BeautifulSoupimport requestsimport pymongo #python操作MongoDB的庫import reimport time#鏈接和建立數據庫client = pymongo.MongoClient(‘localhost’, 27017)

ceshi = client[‘ceshi’] #建ceshi數據庫ganji_url_list = ceshi[‘ganji_url_list’] #建立表文件ganji_url_info = ceshi[‘ganji_url_info’]123456789101112

2、判斷頁面結構是否和我們想要的頁面結構相匹配,比如有時候會有404頁面;

3、從頁面中提取我們想要的鏈接,也就是每個詳情頁面的鏈接;

這裡我們要說的是一個方法就是:

item_link = link.get(‘href’).split(‘?’)[0]12

這裡的這個link什麼類型的,這個get方法又是什麼鬼?

後來我發現了這個類型是

class ‘bs4.element.Tab1

如果我們想要單獨獲取某個屬性,可以這樣,例如我們獲取它的 class 叫什麼

print soup.p[‘class’]

#[‘title’]12

還可以這樣,利用get方法,傳入屬性的名稱,二者是等價的

print soup.p.get(‘class’)#[‘title’]12

下面我來貼上代碼:

#爬取所有商品的詳情頁面鏈接:def get_type_links(channel, num):

list_view = ‘{0}o{1}/’.format(channel, str(num)) #print(list_view)

wb_data = requests.get(list_view)

soup = BeautifulSoup(wb_data.text, ‘lxml’)

linkOn = soup.select(‘.pageBox’) #判斷是否為我們所需頁面的標誌;

#如果爬下來的select鏈接為這樣:div.pageBox ul li:nth-child(1) a span 這裡的:nth-child(1)要刪掉

#print(linkOn)

if linkOn:

link = soup.select(‘.zz .zz-til a’)

link_2 = soup.select(‘.js-item a’)

link = link + link_2 #print(len(link))

for linkc in link:

linkc = linkc.get(‘href’)

ganji_url_list.insert_one({‘url’: linkc})

print(linkc) else: pass1234567891011121314151617181920

4、爬取詳情頁中我們所需要的信息

我來貼一段代碼:

#爬取趕集網詳情頁鏈接:def get_url_info_ganji(url):

time.sleep(1)

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text, ‘lxml’) try:

title = soup.select(‘head title’)[0].text

timec = soup.select(‘.pr-5’)[0].text.strip()

type = soup.select(‘.det-infor li span a’)[0].text

price = soup.select(‘.det-infor li i’)[0].text

place = soup.select(‘.det-infor li a’)[1:]

placeb = [] for placec in place:

placeb.append(placec.text)

tag = soup.select(‘.second-dt-bewrite ul li’)[0].text

tag = ”.join(tag.split()) #print(time.split())

data = { ‘url’ : url, ‘title’ : title, ‘time’ : timec.split(), ‘type’ : type, ‘price’ : price, ‘place’ : placeb, ‘new’ : tag

}

ganji_url_info.insert_one(data) #向數據庫中插入一條數據;

print(data) except IndexError: pass123456789101112131415161718192021222324252627282930

四、我們的主函數怎麼寫?

main.py

看代碼:

#先從別的文件中引入函數和數據:from multiprocessing import Poolfrom page_parsing import get_type_links,get_url_info_ganji,ganji_url_listfrom channel_extract import channel_urls#爬取所有鏈接的函數:def get_all_links_from(channel):

for i in range(1,100):

get_type_links(channel,i)#後執行這個函數用來爬取所有詳情頁的文件:if __name__ == ‘__main__’:# pool = Pool()# # pool = Pool()# pool.map(get_url_info_ganji, [url[‘url’] for url in ganji_url_list.find()])# pool.close()# pool.join()#先執行下面的這個函數,用來爬取所有的鏈接:if __name__ == ‘__main__’:

pool = Pool()

pool = Pool()

pool.map(get_all_links_from,channel_urls.split())

pool.close()

pool.join()1234567891011121314151617181920212223242526

五、計數程序

count.py

用來顯示爬取數據的數目;

import timefrom page_parsing import ganji_url_list,ganji_url_infowhile True: # print(ganji_url_list.find().count())

# time.sleep(5)

print(ganji_url_info.find().count())

time.sleep(5)

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/233834.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-11 17:11
下一篇 2024-12-11 17:11

相關推薦

  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • Python編程二級證書考試相關現已可以上網購買

    計算機二級Python考試是一項重要的國家級認證考試,也是Python編程的入門考試。與其他考試一樣,Python編程二級證書的考生需要進入正式考試,而為了備考,這篇文章將詳細介紹…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29

發表回復

登錄後才能評論