jsoup程序中使用代理（jsoup教程）

本文目錄一覽：

httpClient.getHostConfiguration().setProxy(dynamicIp.getIp(), dynamicIp.getPort());

這樣可以，我這裡dynamicIp是從redis里隨機取的，有個定時任務去取代理IP放redis裡面

1、Jsoup簡述

Java中支持的爬蟲框架有很多，比如WebMagic、Spider、Jsoup等。

Jsoup擁有十分方便的api來處理html文檔，比如參考了DOM對象的文檔遍歷方法，參考了CSS選擇器的用法等等，因此我們可以使用Jsoup快速地掌握爬取頁面數據的技巧。

2、快速開始

1)分析HTML頁面，明確哪些數據是需要抓取的

2)使用HttpClient讀取HTML頁面

HttpClient是一個處理Http協議數據的工具，使用它可以將HTML頁面作為輸入流讀進java程序中.

3)使用Jsoup解析html字元串

通過引入Jsoup工具，直接調用parse方法來解析一個描述html頁面內容的字元串來獲得一個Document對象。該Document對象以操作DOM樹的方式來獲得html頁面上指定的內容。

3、保存爬取的頁面數據

1)保存普通數據到資料庫中

將爬取的數據封裝進實體Bean中，並存到資料庫內。

2)保存圖片到伺服器上

直接通過下載圖片的方式將圖片保存到伺服器本地。

jsoup 只是一個 html 解析器，不是 http 客戶端，

如果需要在複雜的網路環境請使用 httpclient

先獲取到 html 內容，再交給 jsoup 去解析。

希望回答對你有幫助，如果有疑問，請繼續追問

答題不易，互相理解，您的採納是我前進的動力，感謝您。

需要使用代理。

使用Jsoup解析Url時，發現無論如何都不能解析，發現單位都是用的代理上網，可能和代理有關，所以，只要在程序中設置好代理就可以。

代理技術，其實不只是Java語言特有的技術，其實在互聯網早期就已經出現了這種技術。在計算機網路層面，常用的代理技術有，正向代理、反向代理和透明代理。

有比較大的幾率會被封，一般爬去需要控制爬取頻率最好使用代理庫輪詢去拉數據。

首先IP是不能偽造的，因為涉及到tcp/ip的通信問題。除非你根本不想要返回結果，那就成了DDOS攻擊了，最常見的是更換代理。使用代理訪問。

既然是過於頻繁就把調用時間弄長點。這樣估計就可以了。

原創文章，作者：KNT4T，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/127762.html