jsoup程序中使用代理（jsoup教程）

本文目录一览：

httpClient.getHostConfiguration().setProxy(dynamicIp.getIp(), dynamicIp.getPort());

这样可以，我这里dynamicIp是从redis里随机取的，有个定时任务去取代理IP放redis里面

1、Jsoup简述

Java中支持的爬虫框架有很多，比如WebMagic、Spider、Jsoup等。

Jsoup拥有十分方便的api来处理html文档，比如参考了DOM对象的文档遍历方法，参考了CSS选择器的用法等等，因此我们可以使用Jsoup快速地掌握爬取页面数据的技巧。

2、快速开始

1)分析HTML页面，明确哪些数据是需要抓取的

2)使用HttpClient读取HTML页面

HttpClient是一个处理Http协议数据的工具，使用它可以将HTML页面作为输入流读进java程序中.

3)使用Jsoup解析html字符串

通过引入Jsoup工具，直接调用parse方法来解析一个描述html页面内容的字符串来获得一个Document对象。该Document对象以操作DOM树的方式来获得html页面上指定的内容。

3、保存爬取的页面数据

1)保存普通数据到数据库中

将爬取的数据封装进实体Bean中，并存到数据库内。

2)保存图片到服务器上

直接通过下载图片的方式将图片保存到服务器本地。

jsoup 只是一个 html 解析器，不是 http 客户端，

如果需要在复杂的网络环境请使用 httpclient

先获取到 html 内容，再交给 jsoup 去解析。

希望回答对你有帮助，如果有疑问，请继续追问

答题不易，互相理解，您的采纳是我前进的动力，感谢您。

需要使用代理。

使用Jsoup解析Url时，发现无论如何都不能解析，发现单位都是用的代理上网，可能和代理有关，所以，只要在程序中设置好代理就可以。

代理技术，其实不只是Java语言特有的技术，其实在互联网早期就已经出现了这种技术。在计算机网络层面，常用的代理技术有，正向代理、反向代理和透明代理。

有比较大的几率会被封，一般爬去需要控制爬取频率最好使用代理库轮询去拉数据。

首先IP是不能伪造的，因为涉及到tcp/ip的通信问题。除非你根本不想要返回结果，那就成了DDOS攻击了，最常见的是更换代理。使用代理访问。

既然是过于频繁就把调用时间弄长点。这样估计就可以了。

原创文章，作者：KNT4T，如若转载，请注明出处：https://www.506064.com/n/127762.html