org.jsoup.jsoup：Java HTML解析器详解

一、简介

org.jsoup.jsoup是一个用于处理HTML文档的Java类库。该类库提供了丰富的API，方便了我们在Java程序中对HTML文档进行解析、处理和操作，使得我们可以轻松地获取HTML文档中的各种信息，并通过编程的方式实现HTML文档的自动化管理。

二、使用方法

org.jsoup.jsoup的使用十分简单，我们只需要在项目中引入相应的jar包，然后就可以在Java程序中使用它提供的各种方法了。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Main {
    public static void main(String[] args) throws Exception {
        // 从URL获取HTML文档
        Document doc = Jsoup.connect("http://example.com").get();
        
        // 从字符串获取HTML文档
        String html = "<html><head></head><body><p>Hello World!</p></body></html>";
        Document docFromString = Jsoup.parse(html);
        
        // 通过选择器获取元素
        Elements elements = doc.select("a[href]");
        
        // 遍历元素集合，获取元素信息
        for (Element element : elements) {
            String href = element.attr("href");
            String text = element.text();
            System.out.printf("href=\"%s\", text=\"%s\"\n", href, text);
        }
    }
}

三、核心功能

1、获取HTML文档

org.jsoup.jsoup提供了多种方式获取HTML文档，包括从URL获取、从文件获取、从字符串获取等。

// 从URL获取HTML文档
Document doc = Jsoup.connect("http://example.com").get();

// 从文件获取HTML文档
Document docFromFile = Jsoup.parse(new File("example.html"), "UTF-8", "http://example.com/");

// 从字符串获取HTML文档
String html = "<html><head></head><body><p>Hello World!</p></body></html>";
Document docFromString = Jsoup.parse(html);

2、元素选择器

元素选择器可以方便地从HTML文档中选择出符合条件的元素，并进行操作和处理。

// 通过选择器获取元素
Elements elements = doc.select("a[href]");

// 通过属性值获取元素
Element element = doc.selectFirst("a[href=\"http://example.com\"]");

// 遍历元素集合，获取元素信息
for (Element element : elements) {
    String href = element.attr("href");
    String text = element.text();
    System.out.printf("href=\"%s\", text=\"%s\"\n", href, text);
}

3、DOM操作

org.jsoup.jsoup支持对HTML文档进行DOM操作，包括修改元素属性、添加、删除元素等。

// 修改元素属性
Element element = doc.selectFirst("a[href=\"http://example.com\"]");
element.attr("href", "http://example.org");

// 添加元素
Element newElem = doc.createElement("p");
newElem.text("This is a new paragraph.");
doc.body().appendChild(newElem);

// 删除元素
Element oldElem = doc.selectFirst("a[href=\"http://example.com\"]");
oldElem.remove();

四、扩展功能

org.jsoup.jsoup提供了丰富的扩展功能，包括处理XML文档、处理字符串等。

// 处理XML文档
Document xmlDoc = Jsoup.parse(xmlString, "", Parser.xmlParser());

// 处理字符串
String encodedString = org.jsoup.parser.Parser.unescapeEntities("&lt;div&gt;Hello&lt;/div&gt;", true);

五、总结

通过本文的介绍，我们了解了org.jsoup.jsoup的基本使用方法和核心功能，还学习了如何利用它丰富的API对HTML文档进行解析、处理和操作。在实际开发过程中，我们可以利用org.jsoup.jsoup轻松地完成HTML文档的自动化管理任务，提高开发效率。

原创文章，作者：BSMQ，如若转载，请注明出处：https://www.506064.com/n/147437.html