文章目錄

前言
- 1.引入依賴：
- 2.代碼實戰：
- 3.代理說明：
總結

前言

現在一提到爬蟲都是python，類庫比較豐富，如果不會java的同學，去學習python爬蟲比較靠譜，但是那是不是代表java就不能爬蟲呢？肯定不是的，事實上一些場景下，java爬蟲使用起來更方便，更好用。

1.引入依賴：

java當中爬蟲使用的是jsoup的類庫，jsoup提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作數據，讓你請求網頁後可以對網頁進行dom操作達到爬蟲的目的。

 <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.3</version>
        </dependency>

2.代碼實戰：

案例一：
爬蟲股票的分析結果：

 StockShow stockShow = new StockShow();
        String doUrl = String.format("url", stockCode);
        Document doc = null;
        try {
            doc = Jsoup.connect(doUrl).get();
            Elements stockName = doc.select("div[class=stockname]");
            Elements stockTotal = doc.select("div[class=stocktotal]");
            Elements shortStr = doc.select("li[class=short]");
            Elements midStr = doc.select("li[class=mid]");
            Elements longStr = doc.select("li[class=long]");
            Elements stockType = doc.select("div[class=value_bar]").select("span[class=cur]");
            stockShow.setStockName(stockName.get(0).text());
            stockShow.setStockTotal(stockTotal.get(0).text().split("：")[1]);
            stockShow.setShortStr(shortStr.get(0).text().split("：")[1]);
            stockShow.setMidStr(midStr.get(0).text().split("：")[1]);
            stockShow.setLongStr(longStr.get(0).text().split("：")[1]);
            stockShow.setStockType(stockType.get(0).text());
        } catch (IOException e) {
            log.error("findStockAnalysisByStockCode,{}",e.getMessage());
        }

案例2：
抓取學校的信息：

 Campus campus = new Campus();
        String doUrl = String.format(url, campusId);
        Document doc = null;
        if (StringUtils.isEmpty(arg.getIp())){
            arg.setIp("transfer.moguproxy.com");
            arg.setPort(9001);
        }
        try {
            HttpsUtil.trustEveryone();
            Random r = new Random();
            int random = r.nextInt(48);
            Connection conn = Jsoup.connect(doUrl).proxy(arg.getIp(), arg.getPort());//.timeout(10000)
            conn .header("Proxy-Authorization", "Basic "+"V1Vxb2syU29MbUJWTVY2RjpMTHN5TDM0c3ByQlFRM3hw").userAgent(ua[random]).timeout(30000);
            doc = conn.get();
            Elements names = doc.select("a[class=btn btn-xs btn-primary]");
            Elements type = doc.select("a[class=campus_type_fix_b link_now_active]");
//            doc.select("ol[class=breadcrumb]").select("li").get(4).text()
            Elements campusName = doc.select("ol[class=breadcrumb]").select("li");
            Elements addressAndTel = doc.select("div[class=page-header]").select("p");