網頁數據採集軟件:網頁採集器哪個好用

作為一個 3 月經驗用了 3 年的半吊子前爬蟲程序員,難免有在採集數據時不想寫代碼的時候,畢竟輪子天天造,requests.get 都寫膩了寫煩了。

而且相信很多做數據分析的同學,也不會為了搞一份臨時的數據,就專門去學個爬蟲。畢竟:

我就想寫個爬蟲,怎麼要學那麼多東西?

還好市面上有很多傻瓜式的數據採集器,不用寫一行代碼就能採集數據,這些數據採集器的使用體驗到底如何呢?

州的先生就來給大家做一個不深不淺的測評,方便大家在不想寫代碼的時候,也能夠順利採集到數據。

火車頭採集器

今天是第一個選手——火車頭採集器

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

據火車頭官網的介紹:

火車採集器是目前使用人數最多的互聯網數據抓取、處理、分析,挖掘軟件。軟件憑藉其靈活 的配置與強大的性能領先國內數據採集類產品,並贏得眾多用戶的一致認可。

作為國內數據採集器的老前輩,這個自誇自擂還是有資格的。

我們首先到它的官網上下載最新的軟件包:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

然後安裝完成就可以了。

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

要使用首先得進行登錄,沒轍,先去註冊一個吧。之後順利登錄,就進入到了程序的主界面:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

說實話,看到這個界面,我是有點懵的,這應該是一個專業級別的軟件。

不行,看看它的使用手冊先。

火車採集器是一個非常專業的數據抓取和數據處理軟件,對軟件使用者有較高的技術要求, 使用者要有基本的HTML基礎,能看得懂網頁源碼,網頁結構。同時如果用到web發佈或數據庫發佈,則對自己文章系統及數據存儲結構要非常了解。如果您相關基礎薄弱,則需要花時間學習相關知識並多看使用手冊,才可以掌握程序的使用.

按照手冊的介紹,學習採集器時,如有以下相關知識,將會對程序的使用起到促進作用:

  • html基礎 了解網頁的基本知識,幫助分析網頁結構 http://www.w3school.com.cn/html/index.asp
  • 正則表達式的使用 http://www.regexlab.com/zh/regref.htm
  • Http協議的相關知識 Http請求抓包的方法 http://www.fiddler2.com/fiddler2/
  • Access,Mysql,Sqlserver,Sqlite,Oracle,Mongo數據庫的使用
  • 代理服務器,FTP服務器相關知識
  • 常見的SQL語句
  • 插件需要PHP或C#編程功底的支持
  • Apache或IIS服務器架設,網站的安裝

得嘞,所需的計算機和編程知識還不少。

雖然不用寫代碼,但是也得會寫代碼呀。

再看看火車頭採集器的任務新建窗口:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

一共 4 個步驟,每個步驟都還有一大串的配置,感覺是相當的繁瑣。

在這裡,州的先生以採集「州的先生博客」為例來演示一下:

首先,配置採集的網址:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

然後,內容採集規則我們也使用默認的:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

內容發佈規則,我們選擇保存到本地CSV文件:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

其他設置裏面,主要用於配置代理、Cookie、線程等信息,我們都使用默認的。

輸入任務名稱之後,我們點擊保存。程序主窗口的任務列表中就會出現我們剛剛新建的任務:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

點擊選中這個任務,然後鼠標右鍵選擇「開始」以啟動任務:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

這樣,我們的採集任務就已經開始了,在「運行管理」選項卡中可以看到任務運行的狀態:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

任務運行完成之後,可以看到程序採集的數據列表:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

和數據內容:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

雖然配置頁面看起來很複雜,對於有數據採集經驗的人來說,還是相對比較簡單的,但是如果沒有數據採集經驗,操作起來就有點難度。

這種難度並非說是任務運行的難度,而是程序採集下來的數據與自己需求之間不匹配的難度。

八爪魚採集器

下面再來看看另一個選手——八爪魚。

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

首頁,界面就很互聯網。而且主頁還提供了很多模板,相當於直接使用這些模板就可以採集數據了。

不過,和上一個火車頭一樣,我們用州的先生博客來進行測試。

在輸入框中輸入州的先生博客的域名後,出現了一個按鈕,提示網址已識別,可以直接進行採集。這簡直也太方便了吧,那咱們來試試。

點擊後跳轉到了一個 WebView 的窗口,打開了州的先生博客:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

但是這加載也太慢了。

等了十來分鐘,還沒打開。罷了,不用博客做測試了。選擇一個熱門模板來試試吧:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

來看看億萬爬蟲都垂涎欲滴的淘寶數據:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

之前一直以為八爪魚可以搞定淘寶的反爬驗證,看來是我想多了

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

而且免費用戶還不能使用,罷了罷了。

換騰訊網來試試,輸入網址後,打開的網頁,然後自動下拉網頁:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

最終識別出了列表數據(但是不排除是八爪魚後台服務器以模板的形式已經預置了騰訊網的採集和識別規則):

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

我們接着點擊「生成採集設置」:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

可以進入到下一步的操作中,在這裡可以看到八爪魚的採集流程:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

我們直接「保存並開始採集」:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

結果出來的還是一個包含 WebView 的窗口,上面是 WebView 打開需要採集的URL,下方是採集的進度和狀態。

窗口中不斷打開待採集的URL,最終提示採集完成:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

我們導出數據,可以選擇導出到本地或是數據庫,在這裡,我們選擇導出本地:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

最後導出完成,我們看看實際的效果:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

感覺還是不如火車頭:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

最後

火車頭採集器和八爪魚採集器分別用州的先生博客和騰訊網進行了測試。下面簡單進行一下評價吧:

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

火車頭雖然UI界面不友好,配置稍顯繁複,但是對州的先生來說,其更加符合個人的使用習慣。

八爪魚,看起來使用更加傻瓜化,但是完全依賴於「瀏覽器自動化操作」

不想寫代碼?這些數據採集器都可以幫你輕鬆爬數據

效率稍微偏低,而且如果不使用模板(模板得升級會員或付費),自己配置出來的採集結果,也很容易一團糟。

與其如此,不如稍微去掌握一點計算機知識,用火車頭會更加好。

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/220737.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2024-12-09 12:15
下一篇 2024-12-09 12:15

相關推薦

發表回復

登錄後才能評論