前天給大家整理了免費數據源網站合集，看大家的反饋很積極，有粉絲留言說，她還想要爬取一些網頁的數據進行分析，不知道該如何下手

目前的用的比較多數據爬取方法是用python爬蟲，這兩年python很火，網上關於python爬蟲的教程也很多，大家可以自行學習，但是對沒有代碼基礎的朋友來說，短期上手python還是很困難的。

於是我就連日整理8個零代碼數據爬取的工具，並附上使用教程，幫助一些沒有爬蟲基礎的同學獲取數據

1.Microsoft Excel

沒錯，第一個要介紹的就Excel，很多知道Excel可以用來做數據分析，但很少有人知道它還能用來爬數

步驟如下：

1）新建Excel，點擊「數據」——「自網站」

（2）在彈出的對話框中輸入目標網址，這裡以全國實時空氣質量網站為例，點擊轉到，再導入

選擇導入位置，確定

（3）結果如下圖所示

（4）如果要實時更新數據，可以在「數據」——「全部更新」——「連接屬性」中進行設置，輸入更新頻率即可

缺點：這種方式雖然很簡單，但是它會把頁面上所有的文字信息都抓取過來，所以可能會抓取一部分我們不需要的數據，處理起來比較麻煩

火車頭採集器

官網地址：http://www.locoy.com/

火車頭是爬蟲界的元老了，是目前使用人數最多的互聯網數據抓取軟件。它的優勢是採集不限網頁，不限內容，同時還是分佈式採集，效率會高一些。不過它規則和操作設置在我看來有一些死板，對小白用戶來說上手也有點困難，需要有一定的網頁知識基礎

操作步驟：（以火車頭8.6版本為準）

第1步：打開—登錄

第2步：新建分組

第3步：右擊分組，新建任務，填寫任務名；

第4步：寫採集網址規則（起始網址和多級網址獲取）

第5步：寫採集內容規則（如標題、內容）

第6步：發佈內容設置勾選啟用方式二(1)保存格式：一條記錄保存為一個txt;(2)保存位置自定義;(3)文件模板不用動;(4)文件名格式：點右邊的倒立筆型選圖片爬蟲app最新版「手機爬蟲app推薦」;(5)文件編碼可以先選utf-8，如果測試時數據正常，但保存下來的數據有亂碼則選gb2312;

第7步：採集設置，都選100； a.單任務採集內容線程個數：同時可以採集幾個網址； b.採集內容間隔時間毫秒數：兩個任務的間隔時間； c.單任務發佈內容線程個數：一次保存多少條數據； d.發佈內容間隔時間毫秒數：兩次保存數據的時間間隔；

附註：如果網站有防屏蔽採集機制（如數據很多但只能採集一部分下來，或提示多久才能打開一次頁面），則適當調小a值和調大b的值；

第8步：保存、勾選並開始任務（如果是同一分組的，可以在分組上批量選中）

Google Sheet

使用Google Sheet爬取數據前，要保證三點：使用Chrome瀏覽器、擁有Google賬號、電腦已翻牆。

步驟如下：

（1）打開Google Sheet網站：
http://www.google.cn/sheets/about/

（2）在首頁上點擊「轉到Google表格」，然後登錄自己的賬號，可以看到如下界面，再點擊「+」創建新的表格

（3）打開要爬取的目標網站，一個全國實時空氣質量網站http://www.pm25.in/rank，目標網站上的表格結構如下圖所示

（4）回到Google sheet頁面，使用函數=IMPORTHTML(網址, 查詢, 索引)，「網址」就是要爬取數據的目標網站，「查詢」中輸入「list」或「table」，這個取決於數據的具體結構類型，「索引」填阿拉伯數字，從1開始，對應着網站中定義的哪一份表格或列表

對於我們要爬取的網站，我們在Google sheet的A1單元格中輸入函數=IMPORTHTML(“http://www.pm25.in/rank”,”table”,1)，回車後就爬得數據啦

（5）將爬取好的表格存到本地

八爪魚採集器

網站：https://www.bazhuayu.com/

八爪魚採集器是用過最簡單易用的採集器，很適合新手使用。採集原理類似火車頭採集器，用戶設定抓取規則，軟件執行。八爪魚的優點是提供了常見抓取網站的模板，如果不會寫規則，就直接用套用模板就好了。

它是基於瀏覽器內核實現可視化抓取數據，所以存在卡頓、採集數據慢的現象。不過整體來說還是不錯的，畢竟能基本滿足新手在短時間抓取數據的場景，比如翻頁查詢，Ajax 動態加載數據等。

操作步驟：

（1）登陸後找到主頁面，選擇主頁左邊的簡易採集，如圖：

（2）選擇簡易採集中淘寶圖標，如圖紅框：

（3）進入到淘寶版塊後可以進行具體規則模板的選擇，根據樓主截圖，應該手提包列表的數據信息採集，此時我們選擇「淘寶網-商品列表頁採集」，如圖：

（4）然後會進入到信息設置頁面，根據個人需要設置相關關鍵詞，例如此處我們輸入的商品名稱為「手提包」，如圖：

（5）點擊保存並啟動後就可以進行數據採集了，以下是本地採集效果示例，如圖：

GooSeeker 集搜客

網站：
https://www.gooseeker.com/

集搜客也是一款容易上手的可視化採集數據工具。同樣能抓取動態網頁，也支持可以抓取手機網站上的數據，還支持抓取在指數圖表上懸浮顯示的數據。集搜客是以瀏覽器插件形式抓取數據。雖然具有前面所述的優點，但缺點也有，無法多線程採集數據，出現瀏覽器卡頓也在所難免。

這個操作原理和八爪魚也差不多，詳細的步驟可以看一下官方的文檔，我就不展示了

WebScraper

網址：https://webscraper.io/

WebScraper 是一款優秀國外的瀏覽器插件。同樣也是一款適合新手抓取數據的可視化工具。我們通過簡單設置一些抓取規則，剩下的就交給瀏覽器去工作。

安裝和使用步驟：

Web scraper是google瀏覽器的拓展插件，它的安裝和其他插件的安裝是一樣的。

（1）啟動插件，根據提示使用快捷鍵打開插件。實際是在開發者工具中添加了一個tab（開發者工具的位置必須設置在底部才會顯示）

（2）創建爬取任務

點擊Create New Sitemap——Create Sitemap
輸入Sitemap name：爬取任務名稱
輸入start url：爬取的初始頁面，這裡為https://movie.douban.com/chart
點擊create sitemap完成創建

（3）創建選擇器

創建sitemap後進入選擇器創建界面，點擊Add Selector

Selector：選擇器，一個選擇器對應網頁上的一部分區域，也就是包含我們要收集的數據的部分

一個 sitemap 下可以有多個 selector，每個 selector 有可以包含子 selector ，一個 selector 可以只對應一個標題，也可以對應一整個區域，此區域可能包含標題、副標題、作者信息、內容等等信息。

selector設置，參數設置完成後點擊save selector

id為selector名稱，自行設定（小寫英文）
爬取排行榜中的電影名稱，因此type選text
selector：點擊select，依次點擊前兩部電影的標題，可以看到後續全部標題已被自動選中，點擊Done Selecting結束選擇
採集多條數據時勾選multiple
Regex為正交表達式設置，用於對選取文本的過濾，此處不設置
Delay (ms)為每次爬取之間的延遲時間

（4）爬取數據

點擊sitemap douban——Scrape

分別設置請求延時（避免過於頻繁被封）與頁面載入延時（避免網頁載入不全）後點擊Start Scraping，彈出新頁面開始爬取

爬取結束後彈窗自動關閉，點擊refresh按鈕，即可看到爬取的數據，然後點擊sitemap douban——Export Data to CSV導出數據

Scrapinghub

地址：https://scrapinghub.com/

如果你想抓取國外的網站數據，可以考慮 Scrapinghub。它是一個基於Python 的 Scrapy 框架的雲爬蟲平台，安裝和部署挺簡單的，但是操作界面是純英文的，不太友好，而且性價比不高，它提供的每個工具都是單獨收費的。

原創文章，作者：投稿專員，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/207796.html

圖片爬蟲app最新版「手機爬蟲app推薦」