基於Java的網頁數據抓取實現原理

網頁數據抓取是Web應用開發中非常重要的一環,它能夠從多個網站抓取數據,實現信息的聚合和分析。本文將介紹基於Java的網頁數據抓取實現原理。

一、URL操作

URL是統一資源定位符的縮寫,用於指定互聯網上的資源地址。在Java中,可以通過java.net.URL類來操作URL。下面是一個獲取百度首頁的示例代碼:

URL url = new URL("http://www.baidu.com");
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
conn.setConnectTimeout(5000);
conn.setRequestMethod("GET");
conn.setRequestProperty("Accept", "application/json");
InputStream is = conn.getInputStream();
BufferedReader reader = new BufferedReader(new InputStreamReader(is));
StringBuffer response = new StringBuffer();
String line;
while ((line = reader.readLine()) != null) {
    response.append(line);
}
reader.close();
String html = response.toString();

以上代碼首先創建一個URL對象,然後通過openConnection方法打開一個HttpURLConnection連接。設置連接超時時間和請求方式,設置請求頭信息。通過getInputStream方法獲取到響應的輸入流,然後通過BufferedReader讀取響應內容並拼接為字符串。

二、HTML解析

HTML是超文本標記語言的縮寫,用於創建網頁內容。在Java中,可以通過Jsoup開源庫來解析HTML。下面是一個解析百度首頁的示例代碼:

Document doc = Jsoup.parse(html);
Elements links = doc.select("a[href]");
for (Element link : links) {
    String href = link.attr("href");
    String text = link.text();
    System.out.println(href + " " + text);
}

以上代碼首先使用Jsoup的parse方法解析HTML字符串。然後通過select方法選擇所有帶href屬性的a標籤,循環遍歷每個a標籤,並獲取它的href和文本信息。

三、數據存儲

數據存儲是指把抓取到的數據存儲到數據庫或文件中。在Java中,可以通過JDBC來實現數據存儲。下面是一個將百度首頁所有鏈接存儲到數據庫中的示例代碼:

String url = "jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=UTF-8";
String user = "root";
String password = "123456";
Connection conn = null;
PreparedStatement stmt = null;
try {
    Class.forName("com.mysql.jdbc.Driver");
    conn = DriverManager.getConnection(url, user, password);
    conn.setAutoCommit(false);
    String sql = "INSERT INTO links(href, text) VALUES(?, ?)";
    stmt = conn.prepareStatement(sql);
    for (Element link : links) {
        String href = link.attr("href");
        String text = link.text();
        stmt.setString(1, href);
        stmt.setString(2, text);
        stmt.addBatch();
    }
    stmt.executeBatch();
    conn.commit();
} catch (Exception e) {
    conn.rollback();
} finally {
    if (stmt != null) {
        stmt.close();
    }
    if (conn != null) {
        conn.close();
    }
}

以上代碼首先定義MySQL的連接串、賬號和密碼,使用JDBC連接MySQL數據庫。然後使用setAutoCommit將事務提交方式設置為手動提交,循環遍歷所有鏈接,使用addBatch將每個鏈接添加到批處理中。最後通過executeBatch方法執行批處理並手動提交事務,出現異常時回滾事務。

四、反爬蟲處理

反爬蟲是指網站通過技術手段防止爬蟲程序訪問網站。在Java中,可以通過模擬瀏覽器來規避反爬蟲。下面是一個使用Chrome模擬瀏覽器抓取微博數據的示例代碼:

String url = "https://weibo.com/";
System.setProperty("webdriver.chrome.driver", "D:/chromedriver.exe");
ChromeOptions options = new ChromeOptions();
options.addArguments("--headless");
WebDriver driver = new ChromeDriver(options);
driver.get(url);
Thread.sleep(3000);
String html = driver.getPageSource();
driver.quit();
Document doc = Jsoup.parse(html);
Elements elements = doc.select("script:containsData(sp4)");
for (Element element : elements) {
    int start = element.html().indexOf("var sp4 = '") + 11;
    int end = element.html().indexOf("';", start);
    String content = element.html().substring(start, end);
    System.out.println(content);
}

以上代碼首先定義微博的URL地址,設置Chrome驅動的位置和啟動參數。創建ChromeDriver驅動,通過get方法打開URL地址,等待3秒鐘,使用getPageSource方法獲取頁面源碼。關閉驅動,解析HTML內容,選擇所有含有sp4腳本的script標籤,並從腳本內容中提取出包含微博數據的字符串。

五、總結

本文介紹了基於Java的網頁數據抓取實現原理,分別從URL操作、HTML解析、數據存儲和反爬蟲處理這幾個方面進行闡述。通過這些實踐案例,可以幫助讀者更好地理解並應用這些技術,實現更加靈活和高效的數據抓取。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/252266.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-13 17:34
下一篇 2024-12-14 02:15

相關推薦

  • Java JsonPath 效率優化指南

    本篇文章將深入探討Java JsonPath的效率問題,並提供一些優化方案。 一、JsonPath 簡介 JsonPath是一個可用於從JSON數據中獲取信息的庫。它提供了一種DS…

    編程 2025-04-29
  • java client.getacsresponse 編譯報錯解決方法

    java client.getacsresponse 編譯報錯是Java編程過程中常見的錯誤,常見的原因是代碼的語法錯誤、類庫依賴問題和編譯環境的配置問題。下面將從多個方面進行分析…

    編程 2025-04-29
  • Java騰訊雲音視頻對接

    本文旨在從多個方面詳細闡述Java騰訊雲音視頻對接,提供完整的代碼示例。 一、騰訊雲音視頻介紹 騰訊雲音視頻服務(Cloud Tencent Real-Time Communica…

    編程 2025-04-29
  • Python讀取CSV數據畫散點圖

    本文將從以下方面詳細闡述Python讀取CSV文件並畫出散點圖的方法: 一、CSV文件介紹 CSV(Comma-Separated Values)即逗號分隔值,是一種存儲表格數據的…

    編程 2025-04-29
  • Java Bean加載過程

    Java Bean加載過程涉及到類加載器、反射機制和Java虛擬機的執行過程。在本文中,將從這三個方面詳細闡述Java Bean加載的過程。 一、類加載器 類加載器是Java虛擬機…

    編程 2025-04-29
  • Java Milvus SearchParam withoutFields用法介紹

    本文將詳細介紹Java Milvus SearchParam withoutFields的相關知識和用法。 一、什麼是Java Milvus SearchParam without…

    編程 2025-04-29
  • Python中讀入csv文件數據的方法用法介紹

    csv是一種常見的數據格式,通常用於存儲小型數據集。Python作為一種廣泛流行的編程語言,內置了許多操作csv文件的庫。本文將從多個方面詳細介紹Python讀入csv文件的方法。…

    編程 2025-04-29
  • Java 8中某一周的周一

    Java 8是Java語言中的一個版本,於2014年3月18日發佈。本文將從多個方面對Java 8中某一周的周一進行詳細的闡述。 一、數組處理 Java 8新特性之一是Stream…

    編程 2025-04-29
  • Java判斷字符串是否存在多個

    本文將從以下幾個方面詳細闡述如何使用Java判斷一個字符串中是否存在多個指定字符: 一、字符串遍歷 字符串是Java編程中非常重要的一種數據類型。要判斷字符串中是否存在多個指定字符…

    編程 2025-04-29
  • 如何用Python統計列表中各數據的方差和標準差

    本文將從多個方面闡述如何使用Python統計列表中各數據的方差和標準差, 並給出詳細的代碼示例。 一、什麼是方差和標準差 方差是衡量數據變異程度的統計指標,它是每個數據值和該數據值…

    編程 2025-04-29

發表回復

登錄後才能評論