webcollector確定所有的請求都請求完畢的簡單介紹

本文目錄一覽：

1、爬蟲，有什麼框架比httpclient更快
2、webcollector爬取的css如何去掉標籤
3、爬蟲框架都有什麼？
4、webcollector怎麼指定url
5、開源爬蟲框架各有什麼優缺點？

爬蟲，有什麼框架比httpclient更快

開發網絡爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的？這裡按照我的經驗隨便扯淡一下：上面說的爬蟲，基本可以分3類：1.分佈式爬蟲：Nutch

2.JAVA單機爬蟲：Crawler4j、WebMagic、WebCollector

3. 非JAVA單機爬蟲：scrapy

第一類：分佈式爬蟲

爬蟲使用分佈式，主要是解決兩個問題：

1）海量URL管理

2）網速

現在比較流行的分佈式爬蟲，是Apache的Nutch。但是對於大多數用戶來說，Nutch是這幾類爬蟲里，最不好的選擇，理由如下：

1）Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說，用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新寫一個分佈式爬蟲框架了。

2）Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲快。

3）Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來加載和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套複雜的精抽取系統了。而且Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」（parser）這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息（網頁的meta信息、text文本）。

4）用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題（hadoop的問題、hbase的問題）。

5）很多人說Nutch2有gora，可以持久化數據到avro文件、hbase、mysql等。很多人其實理解錯了，這裡說的持久化數據，是指將URL信息（URL管理所需要的數據）存放到avro、hbase、mysql。並不是你要抽取的結構化數據。其實對大多數人來說，URL信息存在哪裡無所謂。

6）Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。如果想用hbase配合nutch（大多數人用nutch2就是為了用hbase），只能使用0.90版本左右的hbase，相應的就要將hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導作用，Nutch2的教程有兩個，分別是Nutch1.x和Nutch2.x，這個Nutch2.x官網上寫的是可以支持到hbase 0.94。但是實際上，這個Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。

所以，如果你不是要做搜索引擎，盡量不要選擇Nutch作為爬蟲。有些團隊就喜歡跟風，非要選擇Nutch來開發精抽取的爬蟲，其實是衝著Nutch的名氣（Nutch作者是Doug Cutting），當然最後的結果往往是項目延期完成。

如果你是要做搜索引擎，Nutch1.x是一個非常好的選擇。Nutch1.x和solr或者es配合，就可以構成一套非常強大的搜索引擎了。如果非要用Nutch2的話，建議等到Nutch2.3發佈再看。目前的Nutch2是一個非常不穩定的版本。

第二類：JAVA單機爬蟲

這裡把JAVA爬蟲單獨分為一類，是因為JAVA在網絡爬蟲這塊的生態圈是非常完善的。相關的資料也是最全的。這裡可能有爭議，我只是隨便扯淡。

其實開源網絡爬蟲（框架）的開發非常簡單，難問題和複雜的問題都被以前的人解決了（比如DOM樹解析和定位、字符集檢測、海量URL去重），可以說是毫無技術含量。包括Nutch，其實Nutch的技術難點是開發hadoop，本身代碼非常簡單。網絡爬蟲從某種意義來說，類似遍曆本機的文件，查找文件中的信息。沒有任何難度可言。之所以選擇開源爬蟲框架，就是為了省事。比如爬蟲的URL管理、線程池之類的模塊，誰都能做，但是要做穩定也是需要一段時間的調試和修改的。

對於爬蟲的功能來說。用戶比較關心的問題往往是：

1）爬蟲支持多線程么、爬蟲能用代理么、爬蟲會爬取重複數據么、爬蟲能爬取JS生成的信息么？

不支持多線程、不支持代理、不能過濾重複URL的，那都不叫開源爬蟲，那叫循環執行http請求。

能不能爬js生成的信息和爬蟲本身沒有太大關係。爬蟲主要是負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關，往往需要通過模擬瀏覽器（htmlunit,selenium）來完成。這些模擬瀏覽器，往往需要耗費很多的時間來處理一個頁面。所以一種策略就是，使用這些爬蟲來遍歷網站，遇到需要解析的頁面，就將網頁的相關信息提交給模擬瀏覽器，來完成JS生成信息的抽取。

2）爬蟲可以爬取ajax信息么？

網頁上有一些異步加載的數據，爬取這些數據有兩種方法：使用模擬瀏覽器（問題1中描述過了），或者分析ajax的http請求，自己生成ajax請求的url，獲取返回的數據。如果是自己生成ajax請求，使用開源爬蟲的意義在哪裡？其實是要用開源爬蟲的線程池和URL管理功能（比如斷點爬取）。

如果我已經可以生成我所需要的ajax請求（列表），如何用這些爬蟲來對這些請求進行爬取？

爬蟲往往都是設計成廣度遍歷或者深度遍歷的模式，去遍歷靜態或者動態頁面。爬取ajax信息屬於deep web（深網）的範疇，雖然大多數爬蟲都不直接支持。但是也可以通過一些方法來完成。比如WebCollector使用廣度遍歷來遍歷網站。爬蟲的第一輪爬取就是爬取種子集合（seeds）中的所有url。簡單來說，就是將生成的ajax請求作為種子，放入爬蟲。用爬蟲對這些種子，進行深度為1的廣度遍歷（默認就是廣度遍歷）。

3）爬蟲怎麼爬取要登陸的網站？

這些開源爬蟲都支持在爬取時指定cookies，模擬登陸主要是靠cookies。至於cookies怎麼獲取，不是爬蟲管的事情。你可以手動獲取、用http請求模擬登陸或者用模擬瀏覽器自動登陸獲取cookie。

4）爬蟲怎麼抽取網頁的信息？

開源爬蟲一般都會集成網頁抽取工具。主要支持兩種規範：CSS SELECTOR和XPATH。至於哪個好，這裡不評價。

5）爬蟲怎麼保存網頁的信息？

有一些爬蟲，自帶一個模塊負責持久化。比如webmagic，有一個模塊叫pipeline。通過簡單地配置，可以將爬蟲抽取到的信息，持久化到文件、數據庫等。還有一些爬蟲，並沒有直接給用戶提供數據持久化的模塊。比如crawler4j和webcollector。讓用戶自己在網頁處理模塊中添加提交數據庫的操作。至於使用pipeline這種模塊好不好，就和操作數據庫使用ORM好不好這個問題類似，取決於你的業務。

6）爬蟲被網站封了怎麼辦？

爬蟲被網站封了，一般用多代理（隨機代理）就可以解決。但是這些開源爬蟲一般沒有直接支持隨機代理的切換。所以用戶往往都需要自己將獲取的代理，放到一個全局數組中，自己寫一個代理隨機獲取（從數組中）的代碼。

7）網頁可以調用爬蟲么？

爬蟲的調用是在Web的服務端調用的，平時怎麼用就怎麼用，這些爬蟲都可以使用。

8）爬蟲速度怎麼樣？

單機開源爬蟲的速度，基本都可以講本機的網速用到極限。爬蟲的速度慢，往往是因為用戶把線程數開少了、網速慢，或者在數據持久化時，和數據庫的交互速度慢。而這些東西，往往都是用戶的機器和二次開發的代碼決定的。這些開源爬蟲的速度，都很可以。

9）明明代碼寫對了，爬不到數據，是不是爬蟲有問題，換個爬蟲能解決么？

如果代碼寫對了，又爬不到數據，換其他爬蟲也是一樣爬不到。遇到這種情況，要麼是網站把你封了，要麼是你爬的數據是javascript生成的。爬不到數據通過換爬蟲是不能解決的。

10）哪個爬蟲可以判斷網站是否爬完、那個爬蟲可以根據主題進行爬取？

爬蟲無法判斷網站是否爬完，只能儘可能覆蓋。

至於根據主題爬取，爬蟲之後把內容爬下來才知道是什麼主題。所以一般都是整個爬下來，然後再去篩選內容。如果嫌爬的太泛，可以通過限制URL正則等方式，來縮小一下範圍。

11）哪個爬蟲的設計模式和構架比較好？

設計模式純屬扯淡。說軟件設計模式好的，都是軟件開發完，然後總結出幾個設計模式。設計模式對軟件開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。

至於構架，開源爬蟲目前主要是細節的數據結構的設計，比如爬取線程池、任務隊列，這些大家都能控制好。爬蟲的業務太簡單，談不上什麼構架。

所以對於JAVA開源爬蟲，我覺得，隨便找一個用的順手的就可以。如果業務複雜，拿哪個爬蟲來，都是要經過複雜的二次開發，才可以滿足需求。

第三類：非JAVA單機爬蟲

在非JAVA語言編寫的爬蟲中，有很多優秀的爬蟲。這裡單獨提取出來作為一類，並不是針對爬蟲本身的質量進行討論，而是針對larbin、scrapy這類爬蟲，對開發成本的影響。

先說python爬蟲，python可以用30行代碼，完成JAVA 50行代碼乾的任務。python寫代碼的確快，但是在調試代碼的階段，python代碼的調試往往會耗費遠遠多於編碼階段省下的時間。使用python開發，要保證程序的正確性和穩定性，就需要寫更多的測試模塊。當然如果爬取規模不大、爬取業務不複雜，使用scrapy這種爬蟲也是蠻不錯的，可以輕鬆完成爬取任務。

對於C++爬蟲來說，學習成本會比較大。而且不能只計算一個人的學習成本，如果軟件需要團隊開發或者交接，那就是很多人的學習成本了。軟件的調試也不是那麼容易。

還有一些ruby、php的爬蟲，這裡不多評價。的確有一些非常小型的數據採集任務，用ruby或者php很方便。但是選擇這些語言的開源爬蟲，一方面要調研一下相關的生態圈，還有就是，這些開源爬蟲可能會出一些你搜不到的BUG（用的人少、資料也少）

End.

webcollector爬取的css如何去掉標籤

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;

import cn.edu.hfut.dmic.webcollector.model.Page;

import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;

public class TutorialCrawler extends BreadthCrawler {

public TutorialCrawler(String crawlPath, boolean autoParse) {

super(crawlPath, autoParse);

}

可以往next中添加希望後續爬取的任務，任務可以是URL或者CrawlDatum

爬蟲不會重複爬取任務，從2.20版之後，爬蟲根據CrawlDatum的key去重，而不是URL

因此如果希望重複爬取某個URL，只要將CrawlDatum的key設置為一個歷史中不存在的值即可

例如增量爬取，可以使用爬取時間+URL作為key。

新版本中，可以直接通過 page.select(css選擇器)方法來抽取網頁中的信息，等價於

page.getDoc().select(css選擇器)方法，page.getDoc()獲取到的是Jsoup中的

Document對象，細節請參考Jsoup教程

@Override

public void visit(Page page, CrawlDatums next) {

if (page.matchUrl(“.*/article/details/.*”)) {

String title = page.select(“div[class=article_title]”).first().text();

String author = page.select(“div[id=blog_userface]”).first().text();

System.out.println(“title:” + title + “\tauthor:” + author);

}

public static void main(String[] args) throws Exception {

TutorialCrawler crawler = new TutorialCrawler(“crawler”, true);

crawler.addSeed(“.*”);

crawler.addRegex(“.*/article/details/.*”);

/*可以設置每個線程visit的間隔，這裡是毫秒*/

//crawler.setVisitInterval(1000);

/*可以設置http請求重試的間隔，這裡是毫秒*/

//crawler.setRetryInterval(1000);

crawler.setThreads(30);

crawler.start(2);

}

爬蟲框架都有什麼？

主流爬蟲框架通常由以下部分組成：

1.種子URL庫：URL用於定位互聯網中的各類資源，如最常見的網頁鏈接，還有常見的文件資源、流媒體資源等。種子URL庫作為網絡爬蟲的入口，標識出爬蟲應該從何處開始運行，指明了數據來源。

2.數據下載器：針對不同的數據種類，需要不同的下載方式。主流爬蟲框架通暢提供多種數據下載器，用來下載不同的資源，如靜態網頁下載器、動態網頁下載器、FTP下載器等。

3.過濾器：對於已經爬取的URL，智能的爬蟲需要對其進行過濾，以提高爬蟲的整體效率。常用的過濾器有基於集合的過濾器、基於布隆過濾的過濾器等。

4.流程調度器：合理的調度爬取流程，也可以提高爬蟲的整體效率。在流程調度器中，通常提供深度優先爬取、廣度優先爬取、訂製爬取等爬取策略。同時提供單線程、多線程等多種爬取方式。

webcollector怎麼指定url

右鍵點擊firefox圖標，彈出動態菜單，選擇屬性點擊

在屬性對話框中選擇快捷方式，複製目標（T）後面文本框的內容；起始位置後面文本框的內容一會也要用到。

將文本框內容複製到記事本中，一個空格，後面複製要訪問的網址(url) ，如圖，注意前面瀏覽器路徑使用雙引號，後面網址不用雙引號

打開開始菜單-〉程序-〉附件-〉系統工具-〉計劃任務（xp系統下）

右鍵點擊，選擇新建計劃任務

給新任務計劃命名後，右鍵點擊其屬性進入對話框，在運行後的文本框，粘貼剛才記事本的內容；起始於後的文本框，粘貼前面快捷方式屬性對話框中起始位置後文本框的內容

在計劃和設置標籤　設置自己的要求後確定就可以了！

開源爬蟲框架各有什麼優缺點？

首先爬蟲框架有三種

分佈式爬蟲：Nutch

JAVA單機爬蟲：Crawler4j，WebMagic，WebCollector

非JAVA單機爬蟲：scrapy

第一類:分佈式爬蟲

優點：

海量URL管理

網速快

缺點：

Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。

用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非。

Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲。

Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來加載和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套複雜的精抽取系統了。

Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」(parser)這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text)

用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題(hadoop的問題、hbase的問題)。

Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。

第二類:JAVA單機爬蟲

優點：

支持多線程。

支持代理。

能過濾重複URL的。

負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關，往往需要通過模擬瀏覽器(htmlunit,selenium)來完成。

缺點：

設計模式對軟件開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。

第三類:非JAVA單機爬蟲

優點：

先說python爬蟲，python可以用30行代碼，完成JAVA

50行代碼乾的任務。python寫代碼的確快，但是在調試代碼的階段，python代碼的調試往往會耗費遠遠多於編碼階段省下的時間。

使用python開發，要保證程序的正確性和穩定性，就需要寫更多的測試模塊。當然如果爬取規模不大、爬取業務不複雜，使用scrapy這種爬蟲也是蠻不錯的，可以輕鬆完成爬取任務。

缺點：

bug較多，不穩定。

爬蟲可以爬取ajax信息么？

如果我已經可以生成我所需要的ajax請求（列表），如何用這些爬蟲來對這些請求進行爬取？

爬蟲往往都是設計成廣度遍歷或者深度遍歷的模式，去遍歷靜態或者動態頁面。爬取ajax信息屬於deepweb（深網）的範疇，雖然大多數爬蟲都不直接支持。但是也可以通過一些方法來完成。比如WebCollector使用廣度遍歷來遍歷網站。爬蟲的第一輪爬取就是爬取種子集合(seeds)中的所有url。簡單來說，就是將生成的ajax請求作為種子，放入爬蟲。用爬蟲對這些種子，進行深度為1的廣度遍歷（默認就是廣度遍歷）。

爬蟲怎麼爬取要登陸的網站？

爬蟲怎麼抽取網頁的信息？

開源爬蟲一般都會集成網頁抽取工具。主要支持兩種規範：CSSSELECTOR和XPATH。

網頁可以調用爬蟲么？

爬蟲的調用是在Web的服務端調用的，平時怎麼用就怎麼用，這些爬蟲都可以使用。

爬蟲速度怎麼樣？

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/238989.html