java解析html,java解析xml字符串

本文目錄一覽:

java程序怎麼讀取html網頁?

步驟:

一、使用java.net包下的URL類,可以將一個網頁(鏈接)封裝成一個URL對象。

二、URL對象有一個openStream()方法,使用該方法可以獲取該網頁的輸入流,我們可以通過讀取輸入流的方式獲得網頁的內容,並通過輸出流寫入HTML文件中。

補充:

步驟:

1.通過URL對象的openStream()方法獲得網頁的字節輸入流 。

2.為字節輸入流加緩衝 。

3. 創建字節輸出流對象 。

4. 為字節輸出流加緩衝 。

5. 讀取數據,並寫入HTML文件 。

java解析html是jsoup還是htmlparse還是其他的什麼

用jsoup解析html或者htmlparse,不過比較難用,jsoup是jquery語法比較方便。

java怎樣讀取html文件

java可以使用jsoup、htmlparser等工具進行html的讀取和解析,以下是詳細說明:

1、jsoup 是一款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於JQuery的操作方法來取出和操作數據。據說它是基於MIT協議發布的。

jsoup的主要功能如下:

從一個URL,文件或字符串中解析HTML;

使用DOM或CSS選擇器來查找、取出數據;

可操作HTML元素、屬性、文本;

示例代碼:

Document doc = Jsoup.parse(input, “UTF-8”, “”);

Element content = doc.getElementById(“content”);

Elements links = content.getElementsByTag(“a”);

for (Element link : links) {

String linkHref = link.attr(“href”);

String linkText = link.text();

}

java如何解析html文檔

import java.io.*;

import java.util.*;

import javax.swing.text.*;

import javax.swing.text.html.*;

import javax.swing.text.html.parser.*;

import javax.swing.text.html.HTMLEditorKit.ParserCallback;

public class Parser extends ParserCallback {    //繼承ParserCallback,解析結果驅動這些回調方法

 protected String base;

 protected boolean isImg = false;

 protected boolean isParagraph = false;

 protected static VectorString element = new VectorString();

 protected static String paragraphText = new String();

 public Parser() {

 }

 public static String getParagraphText() {

  return paragraphText;

 }

 public void handleComment(char[] data, int pos) {

 }

 public void handleEndTag(HTML.Tag t, int pos) {

  if (t == HTML.Tag.P) {

   if (isParagraph) {

    isParagraph = false;

   }

  } else if (t == HTML.Tag.IMG) {

   if (isImg) {

    isImg = false;

   }

  }

 }

 public void handleError(String errorMsg, int pos) {

 }

 public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {

  handleStartTag(t, a, pos);

 }

 public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {

  if (t == HTML.Tag.P) {

   isParagraph = true;

  } else if ((t == HTML.Tag.IMG)) {

   String src = (String) a.getAttribute(HTML.Attribute.SRC);

   if (src != null) {

    element.addElement(src);

    isImg = true;

   }

  }

 }

 public void handleText(char[] data, int pos) {

  if (isParagraph) {

   String tempParagraphText = new String(data);

   if (paragraphText != null) {

    element.addElement(tempParagraphText);

    ;

   }

  }

 }

 

 private static void startParse(String sHtml) {

  try {

   ParserDelegator ps = new ParserDelegator();//負責每次在調用其 parse 方法時啟動一個新的 DocumentParser

   HTMLEditorKit.ParserCallback parser = new Parser();//解析結果驅動這些回調方法。

   ps.parse(new StringReader(sHtml), parser, true);//解析給定的流並通過解析的結果驅動給定的回調。

   //System.out.println(getParagraphText());

   Vector link = element;

   for (int i = 0; i  link.size(); i++) {

    System.out.println(“—-haha—–“);

    System.out.println(link.get(i));

   }

  } catch (Exception e) {

   e.printStackTrace();

  }

 }

 public static void main(String args[]) {

  try {

   String filename = “D://blogbaby.htm”;

   BufferedReader brd = new BufferedReader(new FileReader(filename));

   char[] str = new char[50000];

   brd.read(str);

   String sHtml = new String(str);

   startParse(sHtml);

  } catch (Exception e) {

   e.printStackTrace();

  }

 }

}

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/269996.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-16 13:34
下一篇 2024-12-16 13:35

相關推薦

  • java client.getacsresponse 編譯報錯解決方法

    java client.getacsresponse 編譯報錯是Java編程過程中常見的錯誤,常見的原因是代碼的語法錯誤、類庫依賴問題和編譯環境的配置問題。下面將從多個方面進行分析…

    編程 2025-04-29
  • Java JsonPath 效率優化指南

    本篇文章將深入探討Java JsonPath的效率問題,並提供一些優化方案。 一、JsonPath 簡介 JsonPath是一個可用於從JSON數據中獲取信息的庫。它提供了一種DS…

    編程 2025-04-29
  • Python字符串寬度不限制怎麼打代碼

    本文將為大家詳細介紹Python字符串寬度不限制時如何打代碼的幾個方面。 一、保持代碼風格的統一 在Python字符串寬度不限制的情況下,我們可以寫出很長很長的一行代碼。但是,為了…

    編程 2025-04-29
  • Java騰訊雲音視頻對接

    本文旨在從多個方面詳細闡述Java騰訊雲音視頻對接,提供完整的代碼示例。 一、騰訊雲音視頻介紹 騰訊雲音視頻服務(Cloud Tencent Real-Time Communica…

    編程 2025-04-29
  • Java Bean加載過程

    Java Bean加載過程涉及到類加載器、反射機制和Java虛擬機的執行過程。在本文中,將從這三個方面詳細闡述Java Bean加載的過程。 一、類加載器 類加載器是Java虛擬機…

    編程 2025-04-29
  • Java Milvus SearchParam withoutFields用法介紹

    本文將詳細介紹Java Milvus SearchParam withoutFields的相關知識和用法。 一、什麼是Java Milvus SearchParam without…

    編程 2025-04-29
  • Python中將字符串轉化為浮點數

    本文將介紹在Python中將字符串轉化為浮點數的常用方法。在介紹方法之前,我們先來思考一下這個問題應該如何解決。 一、eval函數 在Python中,最簡單、最常用的將字符串轉化為…

    編程 2025-04-29
  • Java 8中某一周的周一

    Java 8是Java語言中的一個版本,於2014年3月18日發布。本文將從多個方面對Java 8中某一周的周一進行詳細的闡述。 一、數組處理 Java 8新特性之一是Stream…

    編程 2025-04-29
  • Java判斷字符串是否存在多個

    本文將從以下幾個方面詳細闡述如何使用Java判斷一個字符串中是否存在多個指定字符: 一、字符串遍歷 字符串是Java編程中非常重要的一種數據類型。要判斷字符串中是否存在多個指定字符…

    編程 2025-04-29
  • VSCode為什麼無法運行Java

    解答:VSCode無法運行Java是因為默認情況下,VSCode並沒有集成Java運行環境,需要手動添加Java運行環境或安裝相關插件才能實現Java代碼的編寫、調試和運行。 一、…

    編程 2025-04-29

發表回復

登錄後才能評論