javajsoup用法（java jsoup）

本文目錄一覽：

1、java jsoup怎樣爬取特定網頁內的數據
2、java怎樣讀取html文件
3、java使用jsoup採集網站數據
4、詳解如何基於Java用Jsoup爬蟲HTML數據

java jsoup怎樣爬取特定網頁內的數據

1、Jsoup簡述

Java中支持的爬蟲框架有很多，比如WebMagic、Spider、Jsoup等。

Jsoup擁有十分方便的api來處理html文檔，比如參考了DOM對象的文檔遍歷方法，參考了CSS選擇器的用法等等，因此我們可以使用Jsoup快速地掌握爬取頁面數據的技巧。

2、快速開始

1)分析HTML頁面，明確哪些數據是需要抓取的

2)使用HttpClient讀取HTML頁面

HttpClient是一個處理Http協議數據的工具，使用它可以將HTML頁面作為輸入流讀進java程序中.

3)使用Jsoup解析html字符串

通過引入Jsoup工具，直接調用parse方法來解析一個描述html頁面內容的字符串來獲得一個Document對象。該Document對象以操作DOM樹的方式來獲得html頁面上指定的內容。

3、保存爬取的頁面數據

1)保存普通數據到數據庫中

將爬取的數據封裝進實體Bean中，並存到數據庫內。

2)保存圖片到服務器上

直接通過下載圖片的方式將圖片保存到服務器本地。

java怎樣讀取html文件

java可以使用jsoup、htmlparser等工具進行html的讀取和解析，以下是詳細說明：

1、jsoup 是一款 Java 的HTML 解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於JQuery的操作方法來取出和操作數據。據說它是基於MIT協議發佈的。

jsoup的主要功能如下：

從一個URL，文件或字符串中解析HTML；

使用DOM或CSS選擇器來查找、取出數據；

可操作HTML元素、屬性、文本；

示例代碼：

Document doc = Jsoup.parse(input, “UTF-8”, “”);

Element content = doc.getElementById(“content”);

Elements links = content.getElementsByTag(“a”);

for (Element link : links) {

String linkHref = link.attr(“href”);

String linkText = link.text();

}

java使用jsoup採集網站數據

jsoup中自帶抓取的方法，你可以去下一份源碼，因為是開源的，源碼中包含一些例子，百度一下也有很例子，我覺得使用jsoup就可以實現。或者使用httpclient抓取回網頁處理成dom再使用xpath解析。

怎麼都是先抓回網頁再解析。

詳解如何基於Java用Jsoup爬蟲HTML數據

1、要爬蟲一個html數據在之前可以使用HtmlParser，見鏈接但自從jsoup誕生後，使用比HtmlParser更方面。此處就是利用jsoup解析html的，需要加載lib文件夾下的jsoup-1.7.2.jar、jsoup-1.7.2-sources.jar，自己add to build path即可。

後者是源碼，可以查看，真正的包就第一個。

2、jsoup可以直接打開一個網頁url，此處為了方便已經寫了從url獲取string類型的html代碼了。所以可以直接利用Document doc = Jsoup.parse(htmlStr); 得到Document類。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/240958.html