java解析html,java解析xml字符串

本文目录一览:

java程序怎么读取html网页?

步骤:

一、使用java.net包下的URL类,可以将一个网页(链接)封装成一个URL对象。

二、URL对象有一个openStream()方法,使用该方法可以获取该网页的输入流,我们可以通过读取输入流的方式获得网页的内容,并通过输出流写入HTML文件中。

补充:

步骤:

1.通过URL对象的openStream()方法获得网页的字节输入流 。

2.为字节输入流加缓冲 。

3. 创建字节输出流对象 。

4. 为字节输出流加缓冲 。

5. 读取数据,并写入HTML文件 。

java解析html是jsoup还是htmlparse还是其他的什么

用jsoup解析html或者htmlparse,不过比较难用,jsoup是jquery语法比较方便。

java怎样读取html文件

java可以使用jsoup、htmlparser等工具进行html的读取和解析,以下是详细说明:

1、jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。

jsoup的主要功能如下:

从一个URL,文件或字符串中解析HTML;

使用DOM或CSS选择器来查找、取出数据;

可操作HTML元素、属性、文本;

示例代码:

Document doc = Jsoup.parse(input, “UTF-8”, “”);

Element content = doc.getElementById(“content”);

Elements links = content.getElementsByTag(“a”);

for (Element link : links) {

String linkHref = link.attr(“href”);

String linkText = link.text();

}

java如何解析html文档

import java.io.*;

import java.util.*;

import javax.swing.text.*;

import javax.swing.text.html.*;

import javax.swing.text.html.parser.*;

import javax.swing.text.html.HTMLEditorKit.ParserCallback;

public class Parser extends ParserCallback {    //继承ParserCallback,解析结果驱动这些回调方法

 protected String base;

 protected boolean isImg = false;

 protected boolean isParagraph = false;

 protected static VectorString element = new VectorString();

 protected static String paragraphText = new String();

 public Parser() {

 }

 public static String getParagraphText() {

  return paragraphText;

 }

 public void handleComment(char[] data, int pos) {

 }

 public void handleEndTag(HTML.Tag t, int pos) {

  if (t == HTML.Tag.P) {

   if (isParagraph) {

    isParagraph = false;

   }

  } else if (t == HTML.Tag.IMG) {

   if (isImg) {

    isImg = false;

   }

  }

 }

 public void handleError(String errorMsg, int pos) {

 }

 public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {

  handleStartTag(t, a, pos);

 }

 public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {

  if (t == HTML.Tag.P) {

   isParagraph = true;

  } else if ((t == HTML.Tag.IMG)) {

   String src = (String) a.getAttribute(HTML.Attribute.SRC);

   if (src != null) {

    element.addElement(src);

    isImg = true;

   }

  }

 }

 public void handleText(char[] data, int pos) {

  if (isParagraph) {

   String tempParagraphText = new String(data);

   if (paragraphText != null) {

    element.addElement(tempParagraphText);

    ;

   }

  }

 }

 

 private static void startParse(String sHtml) {

  try {

   ParserDelegator ps = new ParserDelegator();//负责每次在调用其 parse 方法时启动一个新的 DocumentParser

   HTMLEditorKit.ParserCallback parser = new Parser();//解析结果驱动这些回调方法。

   ps.parse(new StringReader(sHtml), parser, true);//解析给定的流并通过解析的结果驱动给定的回调。

   //System.out.println(getParagraphText());

   Vector link = element;

   for (int i = 0; i  link.size(); i++) {

    System.out.println(“—-haha—–“);

    System.out.println(link.get(i));

   }

  } catch (Exception e) {

   e.printStackTrace();

  }

 }

 public static void main(String args[]) {

  try {

   String filename = “D://blogbaby.htm”;

   BufferedReader brd = new BufferedReader(new FileReader(filename));

   char[] str = new char[50000];

   brd.read(str);

   String sHtml = new String(str);

   startParse(sHtml);

  } catch (Exception e) {

   e.printStackTrace();

  }

 }

}

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/269996.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2024-12-16 13:34
下一篇 2024-12-16 13:35

相关推荐

  • java client.getacsresponse 编译报错解决方法

    java client.getacsresponse 编译报错是Java编程过程中常见的错误,常见的原因是代码的语法错误、类库依赖问题和编译环境的配置问题。下面将从多个方面进行分析…

    编程 2025-04-29
  • Java JsonPath 效率优化指南

    本篇文章将深入探讨Java JsonPath的效率问题,并提供一些优化方案。 一、JsonPath 简介 JsonPath是一个可用于从JSON数据中获取信息的库。它提供了一种DS…

    编程 2025-04-29
  • Python字符串宽度不限制怎么打代码

    本文将为大家详细介绍Python字符串宽度不限制时如何打代码的几个方面。 一、保持代码风格的统一 在Python字符串宽度不限制的情况下,我们可以写出很长很长的一行代码。但是,为了…

    编程 2025-04-29
  • Java腾讯云音视频对接

    本文旨在从多个方面详细阐述Java腾讯云音视频对接,提供完整的代码示例。 一、腾讯云音视频介绍 腾讯云音视频服务(Cloud Tencent Real-Time Communica…

    编程 2025-04-29
  • Java Bean加载过程

    Java Bean加载过程涉及到类加载器、反射机制和Java虚拟机的执行过程。在本文中,将从这三个方面详细阐述Java Bean加载的过程。 一、类加载器 类加载器是Java虚拟机…

    编程 2025-04-29
  • Java Milvus SearchParam withoutFields用法介绍

    本文将详细介绍Java Milvus SearchParam withoutFields的相关知识和用法。 一、什么是Java Milvus SearchParam without…

    编程 2025-04-29
  • Python中将字符串转化为浮点数

    本文将介绍在Python中将字符串转化为浮点数的常用方法。在介绍方法之前,我们先来思考一下这个问题应该如何解决。 一、eval函数 在Python中,最简单、最常用的将字符串转化为…

    编程 2025-04-29
  • Java 8中某一周的周一

    Java 8是Java语言中的一个版本,于2014年3月18日发布。本文将从多个方面对Java 8中某一周的周一进行详细的阐述。 一、数组处理 Java 8新特性之一是Stream…

    编程 2025-04-29
  • Java判断字符串是否存在多个

    本文将从以下几个方面详细阐述如何使用Java判断一个字符串中是否存在多个指定字符: 一、字符串遍历 字符串是Java编程中非常重要的一种数据类型。要判断字符串中是否存在多个指定字符…

    编程 2025-04-29
  • VSCode为什么无法运行Java

    解答:VSCode无法运行Java是因为默认情况下,VSCode并没有集成Java运行环境,需要手动添加Java运行环境或安装相关插件才能实现Java代码的编写、调试和运行。 一、…

    编程 2025-04-29

发表回复

登录后才能评论