java网页正文提取工具(html提取工具)

本文目录一览:

Java语言编写提取网页信息!求高手指导!

JSoup就是很好的第三方解析网页的工具

Document doc1  = Jsoup.connect(“地址”).get();//参数是地址  

Document doc2 = Jsoup.parse(String html);//参数是网页字符串

//然后就是利用JSoup解析网页

优势:爬取网页快速. 解析网页方便

强烈推荐~

Java 如何只提取网页源代码中的正文部分,就是正文部分包含标签也没关系,就是要那部分包含标签的正文

相似网页可以用正则表达式来截取

不同网站的设计,对正文部分没有一个统一的规则。。。

只能找规律,然后做一个类似通解的方法,但是误差无法避免了。。

大概思路如下:

可以尝试着做一个对比的方法,找出某个标签内的文字和标签的比例最大

文字最多,标签最少的 一般来说是正文

具体实现:

得到网页内容,把网页内容分析成一个树(按照每个标签为一个节点),树的内容包含子节点数和该树一下的文字内容数量。

大概的对节点进行对比分析,得到节点最少,文字最多的节点。 这个就是那个正文节点了。

以上内容只适合博客、文章、新闻类的网站。搜索引擎网站等 很多标签穿插其间的无法适用。

如何提取网页里的文本?

1、首先,我们打开浏览器,找到需要复制的文字。

2、右键点击网页内的空白处,如图所示,弹出菜单中选择“审查元素”。

3、此时,页面就会显示所有组成元素,我们只要选中我们需要复制的段落,右键点击,“copy element”(复制元素)就可以了。

4、打开记事本或者Word,点击粘贴,文字复制下来的效果如下图所示。

我想用java的正则表达式提取网页正文,但不知道哪里错了,请帮忙看一下这个表达式

div\sclass\=”content\-body”\sid\=”shareBody”(?value(\w*))\/div

import java.util.regex.*;

// 表达式对象

Pattern p = Pattern.compile(“div\\sclass\\=\”content\\-body\”\\sid\\=\”shareBody\”(?value(\\w*))\\/div”);

// 创建 Matcher 对象

Matcher m = p.matcher(“”);

// 是否找到匹配

boolean found = m.find();

if( found )

{

  String foundstring = m.group();

  int    beginPos    = m.start();

  int    endPos      = m.end();

}

原创文章,作者:EUCWO,如若转载,请注明出处:https://www.506064.com/n/325016.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
EUCWOEUCWO
上一篇 2025-01-13 13:23
下一篇 2025-01-13 13:23

相关推荐

  • Java JsonPath 效率优化指南

    本篇文章将深入探讨Java JsonPath的效率问题,并提供一些优化方案。 一、JsonPath 简介 JsonPath是一个可用于从JSON数据中获取信息的库。它提供了一种DS…

    编程 2025-04-29
  • java client.getacsresponse 编译报错解决方法

    java client.getacsresponse 编译报错是Java编程过程中常见的错误,常见的原因是代码的语法错误、类库依赖问题和编译环境的配置问题。下面将从多个方面进行分析…

    编程 2025-04-29
  • Java腾讯云音视频对接

    本文旨在从多个方面详细阐述Java腾讯云音视频对接,提供完整的代码示例。 一、腾讯云音视频介绍 腾讯云音视频服务(Cloud Tencent Real-Time Communica…

    编程 2025-04-29
  • Python字典去重复工具

    使用Python语言编写字典去重复工具,可帮助用户快速去重复。 一、字典去重复工具的需求 在使用Python编写程序时,我们经常需要处理数据文件,其中包含了大量的重复数据。为了方便…

    编程 2025-04-29
  • Java Bean加载过程

    Java Bean加载过程涉及到类加载器、反射机制和Java虚拟机的执行过程。在本文中,将从这三个方面详细阐述Java Bean加载的过程。 一、类加载器 类加载器是Java虚拟机…

    编程 2025-04-29
  • Java Milvus SearchParam withoutFields用法介绍

    本文将详细介绍Java Milvus SearchParam withoutFields的相关知识和用法。 一、什么是Java Milvus SearchParam without…

    编程 2025-04-29
  • Java 8中某一周的周一

    Java 8是Java语言中的一个版本,于2014年3月18日发布。本文将从多个方面对Java 8中某一周的周一进行详细的阐述。 一、数组处理 Java 8新特性之一是Stream…

    编程 2025-04-29
  • Java判断字符串是否存在多个

    本文将从以下几个方面详细阐述如何使用Java判断一个字符串中是否存在多个指定字符: 一、字符串遍历 字符串是Java编程中非常重要的一种数据类型。要判断字符串中是否存在多个指定字符…

    编程 2025-04-29
  • VSCode为什么无法运行Java

    解答:VSCode无法运行Java是因为默认情况下,VSCode并没有集成Java运行环境,需要手动添加Java运行环境或安装相关插件才能实现Java代码的编写、调试和运行。 一、…

    编程 2025-04-29
  • Java任务下发回滚系统的设计与实现

    本文将介绍一个Java任务下发回滚系统的设计与实现。该系统可以用于执行复杂的任务,包括可回滚的任务,及时恢复任务失败前的状态。系统使用Java语言进行开发,可以支持多种类型的任务。…

    编程 2025-04-29

发表回复

登录后才能评论