前天給大家整理了免費數據源網站合集,看大家的反饋很積極,有粉絲留言說,她還想要爬取一些網頁的數據進行分析,不知道該如何下手
目前的用的比較多數據爬取方法是用python爬蟲,這兩年python很火,網上關於python爬蟲的教程也很多,大家可以自行學習,但是對沒有代碼基礎的朋友來說,短期上手python還是很困難的。
於是我就連日整理8個零代碼數據爬取的工具,並附上使用教程,幫助一些沒有爬蟲基礎的同學獲取數據
1.Microsoft Excel
沒錯,第一個要介紹的就Excel,很多知道Excel可以用來做數據分析,但很少有人知道它還能用來爬數
步驟如下:
1)新建Excel,點擊「數據」——「自網站」

(2)在彈出的對話框中輸入目標網址,這裡以全國實時空氣質量網站為例,點擊轉到,再導入

選擇導入位置,確定

(3)結果如下圖所示

(4)如果要實時更新數據,可以在「數據」——「全部更新」——「連接屬性」中進行設置,輸入更新頻率即可


缺點:這種方式雖然很簡單,但是它會把頁面上所有的文字信息都抓取過來,所以可能會抓取一部分我們不需要的數據,處理起來比較麻煩
火車頭採集器
官網地址:http://www.locoy.com/
火車頭是爬蟲界的元老了,是目前使用人數最多的互聯網數據抓取軟件。它的優勢是採集不限網頁,不限內容,同時還是分佈式採集,效率會高一些。不過它規則和操作設置在我看來有一些死板,對小白用戶來說上手也有點困難,需要有一定的網頁知識基礎
操作步驟:(以火車頭8.6版本為準)
第1步:打開—登錄
第2步:新建分組

第3步:右擊分組,新建任務,填寫任務名;

第4步:寫採集網址規則(起始網址和多級網址獲取)

第5步:寫採集內容規則(如標題、內容)

第6步:發佈內容設置勾選啟用方式二(1)保存格式:一條記錄保存為一個txt;(2)保存位置自定義;(3)文件模板不用動;(4)文件名格式:點右邊的倒立筆型選圖片爬蟲app最新版「手機爬蟲app推薦」;(5)文件編碼可以先選utf-8,如果測試時數據正常,但保存下來的數據有亂碼則選gb2312;

第7步:採集設置,都選100; a.單任務採集內容線程個數:同時可以採集幾個網址; b.採集內容間隔時間毫秒數:兩個任務的間隔時間; c.單任務發佈內容線程個數:一次保存多少條數據; d.發佈內容間隔時間毫秒數:兩次保存數據的時間間隔;

附註:如果網站有防屏蔽採集機制(如數據很多但只能採集一部分下來,或提示多久才能打開一次頁面),則適當調小a值和調大b的值;
第8步:保存、勾選並開始任務(如果是同一分組的,可以在分組上批量選中)

Google Sheet
使用Google Sheet爬取數據前,要保證三點:使用Chrome瀏覽器、擁有Google賬號、電腦已翻牆。
步驟如下:
(1)打開Google Sheet網站:
http://www.google.cn/sheets/about/

(2)在首頁上點擊「轉到Google表格」,然後登錄自己的賬號,可以看到如下界面,再點擊「+」創建新的表格

(3)打開要爬取的目標網站,一個全國實時空氣質量網站http://www.pm25.in/rank,目標網站上的表格結構如下圖所示

(4)回到Google sheet頁面,使用函數=IMPORTHTML(網址, 查詢, 索引),「網址」就是要爬取數據的目標網站,「查詢」中輸入「list」或「table」,這個取決於數據的具體結構類型,「索引」填阿拉伯數字,從1開始,對應着網站中定義的哪一份表格或列表
對於我們要爬取的網站,我們在Google sheet的A1單元格中輸入函數=IMPORTHTML(“http://www.pm25.in/rank”,”table”,1),回車後就爬得數據啦


(5)將爬取好的表格存到本地

八爪魚採集器
網站:https://www.bazhuayu.com/
八爪魚採集器是用過最簡單易用的採集器,很適合新手使用。採集原理類似火車頭採集器,用戶設定抓取規則,軟件執行。八爪魚的優點是提供了常見抓取網站的模板,如果不會寫規則, 就直接用套用模板就好了。
它是基於瀏覽器內核實現可視化抓取數據,所以存在卡頓、採集數據慢的現象。不過整體來說還是不錯的,畢竟能基本滿足新手在短時間抓取數據的場景,比如翻頁查詢,Ajax 動態加載數據等。
操作步驟:
(1)登陸後找到主頁面,選擇主頁左邊的簡易採集,如圖:

(2)選擇簡易採集中淘寶圖標,如圖紅框:

(3)進入到淘寶版塊後可以進行具體規則模板的選擇,根據樓主截圖,應該手提包列表的數據信息採集,此時我們選擇「淘寶網-商品列表頁採集」,如圖:

(4)然後會進入到信息設置頁面,根據個人需要設置相關關鍵詞,例如此處我們輸入的商品名稱為「手提包」,如圖:

(5)點擊保存並啟動後就可以進行數據採集了,以下是本地採集效果示例,如圖:

GooSeeker 集搜客
網站:
https://www.gooseeker.com/
集搜客也是一款容易上手的可視化採集數據工具。同樣能抓取動態網頁,也支持可以抓取手機網站上的數據,還支持抓取在指數圖表上懸浮顯示的數據。集搜客是以瀏覽器插件形式抓取數據。雖然具有前面所述的優點,但缺點也有,無法多線程採集數據,出現瀏覽器卡頓也在所難免。
這個操作原理和八爪魚也差不多,詳細的步驟可以看一下官方的文檔,我就不展示了
WebScraper
網址:https://webscraper.io/
WebScraper 是一款優秀國外的瀏覽器插件。同樣也是一款適合新手抓取數據的可視化工具。我們通過簡單設置一些抓取規則,剩下的就交給瀏覽器去工作。
安裝和使用步驟:
Web scraper是google瀏覽器的拓展插件,它的安裝和其他插件的安裝是一樣的。

(1)啟動插件,根據提示使用快捷鍵打開插件。實際是在開發者工具中添加了一個tab(開發者工具的位置必須設置在底部才會顯示)


(2) 創建爬取任務
- 點擊Create New Sitemap——Create Sitemap
- 輸入Sitemap name:爬取任務名稱
- 輸入start url:爬取的初始頁面,這裡為https://movie.douban.com/chart
- 點擊create sitemap完成創建

(3) 創建選擇器
創建sitemap後進入選擇器創建界面,點擊Add Selector
Selector:選擇器,一個選擇器對應網頁上的一部分區域,也就是包含我們要收集的數據的部分
一個 sitemap 下可以有多個 selector,每個 selector 有可以包含子 selector ,一個 selector 可以只對應一個標題,也可以對應一整個區域,此區域可能包含標題、副標題、作者信息、內容等等信息。

selector設置,參數設置完成後點擊save selector
- id為selector名稱,自行設定(小寫英文)
- 爬取排行榜中的電影名稱,因此type選text
- selector:點擊select,依次點擊前兩部電影的標題,可以看到後續全部標題已被自動選中,點擊Done Selecting結束選擇
- 採集多條數據時勾選multiple
- Regex為正交表達式設置,用於對選取文本的過濾,此處不設置
- Delay (ms)為每次爬取之間的延遲時間

(4)爬取數據
點擊sitemap douban——Scrape

分別設置請求延時(避免過於頻繁被封)與頁面載入延時(避免網頁載入不全)後點擊Start Scraping,彈出新頁面開始爬取

爬取結束後彈窗自動關閉,點擊refresh按鈕,即可看到爬取的數據,然後點擊sitemap douban——Export Data to CSV導出數據

Scrapinghub
地址:https://scrapinghub.com/
如果你想抓取國外的網站數據,可以考慮 Scrapinghub。它是一個基於Python 的 Scrapy 框架的雲爬蟲平台,安裝和部署挺簡單的,但是操作界面是純英文的,不太友好,而且性價比不高,它提供的每個工具都是單獨收費的。
原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/207796.html