java實現網頁爬蟲的示例講解（java爬蟲爬取網頁內容）

本文目錄一覽：

1、java jsoup怎樣爬取特定網頁內的數據
2、java如何做高級爬蟲
3、java 網絡爬蟲怎麼實現？
4、如何使用Java語言實現一個網頁爬蟲
5、Java網絡爬蟲怎麼實現？
6、網絡爬蟲解析網頁怎樣用java代碼實現

java jsoup怎樣爬取特定網頁內的數據

1、Jsoup簡述

Java中支持的爬蟲框架有很多，比如WebMagic、Spider、Jsoup等。

Jsoup擁有十分方便的api來處理html文檔，比如參考了DOM對象的文檔遍歷方法，參考了CSS選擇器的用法等等，因此我們可以使用Jsoup快速地掌握爬取頁面數據的技巧。

2、快速開始

1)分析HTML頁面，明確哪些數據是需要抓取的

2)使用HttpClient讀取HTML頁面

HttpClient是一個處理Http協議數據的工具，使用它可以將HTML頁面作為輸入流讀進java程序中.

3)使用Jsoup解析html字符串

通過引入Jsoup工具，直接調用parse方法來解析一個描述html頁面內容的字符串來獲得一個Document對象。該Document對象以操作DOM樹的方式來獲得html頁面上指定的內容。

3、保存爬取的頁面數據

1)保存普通數據到數據庫中

將爬取的數據封裝進實體Bean中，並存到數據庫內。

2)保存圖片到服務器上

直接通過下載圖片的方式將圖片保存到服務器本地。

java如何做高級爬蟲

下面說明知乎爬蟲的源碼和涉及主要技術點：

（1）程序package組織

（2）模擬登錄（爬蟲主要技術點1）

要爬去需要登錄的網站數據，模擬登錄是必要可少的一步，而且往往是難點。知乎爬蟲的模擬登錄可以做一個很好的案例。要實現一個網站的模擬登錄，需要兩大步驟是：（1）對登錄的請求過程進行分析，找到登錄的關鍵請求和步驟，分析工具可以有IE自帶(快捷鍵F12)、Fiddler、HttpWatcher；（2）編寫代碼模擬登錄的過程。

（3）網頁下載（爬蟲主要技術點2）

模擬登錄後，便可下載目標網頁html了。知乎爬蟲基於HttpClient寫了一個網絡連接線程池，並且封裝了常用的get和post兩種網頁下載的方法。

（4）自動獲取網頁編碼（爬蟲主要技術點3）

自動獲取網頁編碼是確保下載網頁html不出現亂碼的前提。知乎爬蟲中提供方法可以解決絕大部分亂碼下載網頁亂碼問題。

（5）網頁解析和提取（爬蟲主要技術點4）

使用Java寫爬蟲，常見的網頁解析和提取方法有兩種：利用開源Jar包Jsoup和正則。一般來說，Jsoup就可以解決問題，極少出現Jsoup不能解析和提取的情況。Jsoup強大功能，使得解析和提取異常簡單。知乎爬蟲採用的就是Jsoup。 …展開下面說明知乎爬蟲的源碼和涉及主要技術點：

（1）程序package組織

（2）模擬登錄（爬蟲主要技術點1）

（3）網頁下載（爬蟲主要技術點2）

模擬登錄後，便可下載目標網頁html了。知乎爬蟲基於HttpClient寫了一個網絡連接線程池，並且封裝了常用的get和post兩種網頁下載的方法。

（4）自動獲取網頁編碼（爬蟲主要技術點3）

自動獲取網頁編碼是確保下載網頁html不出現亂碼的前提。知乎爬蟲中提供方法可以解決絕大部分亂碼下載網頁亂碼問題。

（5）網頁解析和提取（爬蟲主要技術點4）

使用Java寫爬蟲，常見的網頁解析和提取方法有兩種：利用開源Jar包Jsoup和正則。一般來說，Jsoup就可以解決問題，極少出現Jsoup不能解析和提取的情況。Jsoup強大功能，使得解析和提取異常簡單。知乎爬蟲採用的就是Jsoup。

（6）正則匹配與提取（爬蟲主要技術點5）

雖然知乎爬蟲採用Jsoup來進行網頁解析，但是仍然封裝了正則匹配與提取數據的方法，因為正則還可以做其他的事情，如在知乎爬蟲中使用正則來進行url地址的過濾和判斷。

（7）數據去重（爬蟲主要技術點6）

對於爬蟲，根據場景不同，可以有不同的去重方案。（1）少量數據，比如幾萬或者十幾萬條的情況，使用Map或Set便可；（2）中量數據，比如幾百萬或者上千萬，使用BloomFilter（著名的布隆過濾器）可以解決；（3）大量數據，上億或者幾十億，Redis可以解決。知乎爬蟲給出了BloomFilter的實現，但是採用的Redis進行去重。

（8）設計模式等Java高級編程實踐

除了以上爬蟲主要的技術點之外，知乎爬蟲的實現還涉及多種設計模式，主要有鏈模式、單例模式、組合模式等，同時還使用了Java反射。除了學習爬蟲技術，這對學習設計模式和Java反射機制也是一個不錯的案例。

4. 一些抓取結果展示收起

java 網絡爬蟲怎麼實現？

1、在打開的ie瀏覽器窗口右上方點擊齒輪圖標，選擇“Internet選項”，如下圖所示：

2、在打開的Internet選項窗口中，切換到安全欄，在安全選卡中點擊“自定義級別”，如下圖所示：

3、在“安全設置-Internet 區域”界面找到“Java 小程序腳本”、“活動腳本”，並將這兩個選項都選擇為“禁用”，然後點擊確定,如下圖所示：

如何使用Java語言實現一個網頁爬蟲

Java開源Web爬蟲

Heritrix

Heritrix是一個開源，可擴展的web爬蟲項目。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標籤。

更多Heritrix信息

WebSPHINX

WebSPHINX是一個Java類包和Web爬蟲的交互式開發環境。Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程序。WebSPHINX由兩部分組成：爬蟲工作平台和WebSPHINX類包。

更多WebSPHINX信息

WebLech

WebLech是一個功能強大的Web站點下載與鏡像工具。它支持按功能需求來下載web站點並能夠儘可能模仿標準Web瀏覽器的行為。WebLech有一個功能控制台並採用多線程操作。

Java網絡爬蟲怎麼實現？

網絡爬蟲是一個自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。

傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。對於垂直搜索來說，聚焦爬蟲，即有針對性地爬取特定主題網頁的爬蟲，更為適合。

以下是一個使用java實現的簡單爬蟲核心代碼：

public void crawl() throws Throwable {

while (continueCrawling()) {

CrawlerUrl url = getNextUrl(); //獲取待爬取隊列中的下一個URL

if (url != null) {

printCrawlInfo();

String content = getContent(url); //獲取URL的文本信息

//聚焦爬蟲只爬取與主題內容相關的網頁，這裡採用正則匹配簡單處理

if (isContentRelevant(content, this.regexpSearchPattern)) {

saveContent(url, content); //保存網頁至本地

//獲取網頁內容中的鏈接，並放入待爬取隊列中

Collection urlStrings = extractUrls(content, url);

addUrlsToUrlQueue(url, urlStrings);

} else {

System.out.println(url + ” is not relevant ignoring …”);

}

//延時防止被對方屏蔽

Thread.sleep(this.delayBetweenUrls);

}

closeOutputStream();

}

private CrawlerUrl getNextUrl() throws Throwable {

CrawlerUrl nextUrl = null;

while ((nextUrl == null) (!urlQueue.isEmpty())) {

CrawlerUrl crawlerUrl = this.urlQueue.remove();

//doWeHavePermissionToVisit：是否有權限訪問該URL，友好的爬蟲會根據網站提供的”Robot.txt”中配置的規則進行爬取

//isUrlAlreadyVisited：URL是否訪問過，大型的搜索引擎往往採用BloomFilter進行排重，這裡簡單使用HashMap

//isDepthAcceptable：是否達到指定的深度上限。爬蟲一般採取廣度優先的方式。一些網站會構建爬蟲陷阱（自動生成一些無效鏈接使爬蟲陷入死循環），採用深度限制加以避免

if (doWeHavePermissionToVisit(crawlerUrl)

(!isUrlAlreadyVisited(crawlerUrl))

isDepthAcceptable(crawlerUrl)) {

nextUrl = crawlerUrl;

// System.out.println(“Next url to be visited is ” + nextUrl);

}

return nextUrl;

}

private String getContent(CrawlerUrl url) throws Throwable {

//HttpClient4.1的調用與之前的方式不同

HttpClient client = new DefaultHttpClient();

HttpGet httpGet = new HttpGet(url.getUrlString());

StringBuffer strBuf = new StringBuffer();

HttpResponse response = client.execute(httpGet);

if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {

HttpEntity entity = response.getEntity();

if (entity != null) {

BufferedReader reader = new BufferedReader(

new InputStreamReader(entity.getContent(), “UTF-8”));

String line = null;

if (entity.getContentLength() 0) {

strBuf = new StringBuffer((int) entity.getContentLength());

while ((line = reader.readLine()) != null) {

strBuf.append(line);

}

if (entity != null) {

nsumeContent();

}

//將url標記為已訪問

markUrlAsVisited(url);

return strBuf.toString();

}

public static boolean isContentRelevant(String content,

Pattern regexpPattern) {

boolean retValue = false;

if (content != null) {

//是否符合正則表達式的條件

Matcher m = regexpPattern.matcher(content.toLowerCase());

retValue = m.find();

}

return retValue;

}

public List extractUrls(String text, CrawlerUrl crawlerUrl) {

Map urlMap = new HashMap();

extractHttpUrls(urlMap, text);

extractRelativeUrls(urlMap, text, crawlerUrl);

return new ArrayList(urlMap.keySet());

}

private void extractHttpUrls(Map urlMap, String text) {

Matcher m = (text);

while (m.find()) {

String url = m.group();

String[] terms = url.split(“a href=\””);

for (String term : terms) {

// System.out.println(“Term = ” + term);

if (term.startsWith(“http”)) {

int index = term.indexOf(“\””);

if (index 0) {

term = term.substring(0, index);

}

urlMap.put(term, term);

System.out.println(“Hyperlink: ” + term);

}

private void extractRelativeUrls(Map urlMap, String text,

CrawlerUrl crawlerUrl) {

Matcher m = relativeRegexp.matcher(text);

URL textURL = crawlerUrl.getURL();

String host = textURL.getHost();

while (m.find()) {

String url = m.group();

String[] terms = url.split(“a href=\””);

for (String term : terms) {

if (term.startsWith(“/”)) {

int index = term.indexOf(“\””);

if (index 0) {

term = term.substring(0, index);

}

String s = //” + host + term;

urlMap.put(s, s);

System.out.println(“Relative url: ” + s);

}

public static void main(String[] args) {

try {

String url = “”;

Queue urlQueue = new LinkedList();

String regexp = “java”;

urlQueue.add(new CrawlerUrl(url, 0));

NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,

regexp);

// boolean allowCrawl = crawler.areWeAllowedToVisit(url);

// System.out.println(“Allowed to crawl: ” + url + ” ” +

// allowCrawl);

crawler.crawl();

} catch (Throwable t) {

System.out.println(t.toString());

t.printStackTrace();

}

網絡爬蟲解析網頁怎樣用java代碼實現

爬蟲的原理其實就是獲取到網頁內容，然後對其進行解析。只不過獲取的網頁、解析內容的方式多種多樣而已。

你可以簡單的使用httpclient發送get/post請求，獲取結果，然後使用截取字符串、正則表達式獲取想要的內容。

或者使用像Jsoup/crawler4j等這些已經封裝好的類庫，更方便的爬取信息。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/251030.html