python爬蟲爬取趕集網數據,爬蟲抓取數據

本文目錄一覽：

1、python可以爬取什麼數據
2、python大數據-爬取趕集轉轉商品信息10萬大數據
3、如何一個月入門Python爬蟲，輕鬆爬取大規模數據

python可以爬取什麼數據

一、爬取我們所需要的一線鏈接

channel_extract.py

這裡的一線鏈接也就是我們所說的大類鏈接：

from bs4 import BeautifulSoupimport requests

start_url = ”host_url = ”def get_channel_urls(url):

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text, ‘lxml’)

links = soup.select(‘.fenlei dt a’) #print(links)

for link in links:

page_url = host_url + link.get(‘href’)

print(page_url)#get_channel_urls(start_url)channel_urls = ”’

”’123456789101112131415161718192021222324252627282930313233343536

那麼拿我爬取的58同城為例就是爬取了二手市場所有品類的鏈接，也就是我說的大類鏈接；

找到這些鏈接的共同特徵，用函數將其輸出，並作為多行文本儲存起來。

二、獲取我們所需要的詳情頁面的鏈接和詳情信息

page_parsing.py

1、說說我們的資料庫：

先看代碼：

#引入庫文件from bs4 import BeautifulSoupimport requestsimport pymongo #python操作MongoDB的庫import reimport time#鏈接和建立資料庫client = pymongo.MongoClient(‘localhost’, 27017)

ceshi = client[‘ceshi’] #建ceshi資料庫ganji_url_list = ceshi[‘ganji_url_list’] #建立表文件ganji_url_info = ceshi[‘ganji_url_info’]123456789101112

2、判斷頁面結構是否和我們想要的頁面結構相匹配，比如有時候會有404頁面；

3、從頁面中提取我們想要的鏈接，也就是每個詳情頁面的鏈接；

這裡我們要說的是一個方法就是:

item_link = link.get(‘href’).split(‘?’)[0]12

這裡的這個link什麼類型的，這個get方法又是什麼鬼？

後來我發現了這個類型是

class ‘bs4.element.Tab1

如果我們想要單獨獲取某個屬性，可以這樣，例如我們獲取它的 class 叫什麼

print soup.p[‘class’]

#[‘title’]12

還可以這樣，利用get方法，傳入屬性的名稱，二者是等價的

print soup.p.get(‘class’)#[‘title’]12

下面我來貼上代碼：

#爬取所有商品的詳情頁面鏈接：def get_type_links(channel, num):

list_view = ‘{0}o{1}/’.format(channel, str(num)) #print(list_view)

wb_data = requests.get(list_view)

soup = BeautifulSoup(wb_data.text, ‘lxml’)

linkOn = soup.select(‘.pageBox’) #判斷是否為我們所需頁面的標誌；

#如果爬下來的select鏈接為這樣：div.pageBox ul li:nth-child(1) a span 這裡的:nth-child(1)要刪掉

#print(linkOn)

if linkOn:

link = soup.select(‘.zz .zz-til a’)

link_2 = soup.select(‘.js-item a’)

link = link + link_2 #print(len(link))

for linkc in link:

linkc = linkc.get(‘href’)

ganji_url_list.insert_one({‘url’: linkc})

print(linkc) else: pass1234567891011121314151617181920

4、爬取詳情頁中我們所需要的信息

我來貼一段代碼：

#爬取趕集網詳情頁鏈接：def get_url_info_ganji(url):

time.sleep(1)

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text, ‘lxml’) try:

title = soup.select(‘head title’)[0].text

timec = soup.select(‘.pr-5’)[0].text.strip()

type = soup.select(‘.det-infor li span a’)[0].text

price = soup.select(‘.det-infor li i’)[0].text

place = soup.select(‘.det-infor li a’)[1:]

placeb = [] for placec in place:

placeb.append(placec.text)

tag = soup.select(‘.second-dt-bewrite ul li’)[0].text

tag = ”.join(tag.split()) #print(time.split())

data = { ‘url’ : url, ‘title’ : title, ‘time’ : timec.split(), ‘type’ : type, ‘price’ : price, ‘place’ : placeb, ‘new’ : tag

}

ganji_url_info.insert_one(data) #向資料庫中插入一條數據；

print(data) except IndexError: pass123456789101112131415161718192021222324252627282930

四、我們的主函數怎麼寫？

main.py

看代碼：

#先從別的文件中引入函數和數據：from multiprocessing import Poolfrom page_parsing import get_type_links,get_url_info_ganji,ganji_url_listfrom channel_extract import channel_urls#爬取所有鏈接的函數：def get_all_links_from(channel):

for i in range(1,100):

get_type_links(channel,i)#後執行這個函數用來爬取所有詳情頁的文件：if __name__ == ‘__main__’:# pool = Pool()# # pool = Pool()# pool.map(get_url_info_ganji, [url[‘url’] for url in ganji_url_list.find()])# pool.close()# pool.join()#先執行下面的這個函數，用來爬取所有的鏈接：if __name__ == ‘__main__’:

pool = Pool()

pool.map(get_all_links_from,channel_urls.split())

pool.close()

pool.join()1234567891011121314151617181920212223242526

五、計數程序

count.py

用來顯示爬取數據的數目；

import timefrom page_parsing import ganji_url_list,ganji_url_infowhile True: # print(ganji_url_list.find().count())

# time.sleep(5)

print(ganji_url_info.find().count())

time.sleep(5)

python大數據-爬取趕集轉轉商品信息10萬大數據

爬取轉轉二手商品數據

新增文件 channel_extract.py

新建文件 page_parsing.py

打開終端，開啟3個窗口，切換到程序文件夾中，第一個窗口輸入 mongod , mongo ，好了， mongo 已開啟

第二個窗口輸入 python3 counts.py

第三個窗口輸入 python3 main.py

好了，開始抓取數據了，成功

如何一個月入門Python爬蟲，輕鬆爬取大規模數據

鏈接：

提取碼：2b6c

課程簡介

畢業不知如何就業？工作效率低經常挨罵？很多次想學編程都沒有學會？

Python 實戰：四周實現爬蟲系統，無需編程基礎，二十八天掌握一項謀生技能。

帶你學到如何從網上批量獲得幾十萬數據，如何處理海量大數據，數據可視化及網站製作。

課程目錄

開始之前，魔力手冊 for 實戰學員預習

第一周：學會爬取網頁信息

第二周：學會爬取大規模數據

第三周：數據統計與分析

第四周：搭建 Django 數據可視化網站

……

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/199280.html

python爬蟲爬取趕集網數據,爬蟲 抓取數據

本文目錄一覽：

python可以爬取什麼數據

python大數據-爬取趕集轉轉商品信息10萬大數據

如何一個月入門Python爬蟲，輕鬆爬取大規模數據

相關推薦

發表回復

python爬蟲爬取趕集網數據,爬蟲抓取數據