js爬虫修改代码(爬虫修改网页)

本文目录一览:

前端js爬虫?

纯粹前端的js 是不能 跨域 获取 cookie的

xxx.com 的js 代码 只能得到 xxx.com的cookie,拿不到 yyy.com

当然如果你有办法 在 yyy.com 写入受到自己控制的 html文件,你就可以写代码去拿到 对应的cookie,但看你的需求 应该你没有yyy.com 的权限

所以 要结合其他方案,推荐一下两种:

使用 electron ,electron 你可以认为是受js控制的浏览器引擎,所以你可以用它访问 yyy.com 拿到cookie,再接着做你的事情

或者 使用 puppeteer(Google 官方出品的 headless Chrome node 库)

Puppeteer 提供了一系列的 API,可以在无 UI 的情况下调用 Chrome 的各种功能,适用于爬虫、自动化处理等各种情景。

如何使用nodejs做爬虫程序

目标

抓取网站上的妹子照片。

第三方模块

superagent : 第三方Nodejs 模块,用于处理服务器和客户端的Http请求。

cheerio : 为服务器端定制的Jquery实现。

思路

通过superagent 获取目标网站的dom

通过cheerio对dom进行解析,获得通用布局。

如果只是爬取一个页面,则可以直接将目标页面的目标元素获取

如果是分页或者多个页面,可以通过循环获得目标链接,进行多次抓取。

实现

这里我们实现一个抓取网站妹子的照片。

目标网址: (对于该网站,并没有恶意攻击的意思.)

代码如下:

//引入第三方和通用模块

var fs = require(‘fs’);//为了将抓取的图片存到本地,使用fs

var superagent = require(‘superagent’);//引入superagent

var cheerio = require(‘cheerio’);//引入jquery实现

 

var filePath = ‘/node/学习/sis/img/’;//定义抓取妹子文件存放路径

var count = 0;//记录抓取数量

var test = [];

//抓取一个页面的实现。

var getOnePage = function(url){

    //因为煎蛋对请求做了限制,所以将cookie加上了。如果你要访问该网站的话,可以通过a href=”;tn=44039180_cprfenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1d9n1DdmWFhuj-9P1c1nWwb0ZwV5Hcvrjm3rH6sPfKWUMw85HfYnjn4nH6sgvPsT6KdThsqpZwYTjCEQLGCpyw9Uz4Bmy-bIi4WUvYETgN-TLwGUv3EPjRLP1msP1TzPjTYnj0vnjfd” target=”_blank” class=”baidu-highlight”浏览器/a查找cookie 并进行替换

    superagent.get(url)

    .set({

            ‘user-agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36′

    })

    .set(‘cookie’,’500322148=53; Hm_lvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454117846; Hm_lpvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454119909′)

    .set({

        ‘accept’ : ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8’,

        ‘connection’ : ‘keep-alive’,

        ‘host’ : ‘jandan.net’

    })

    .end(function(err,sres){//这里是对获取的dom进行处理

        if(err)throw err;

        var $ = cheerio.load(sres.text);

        var nextUrl = $(‘.previous-comment-page’).attr(‘href’);//获得下一页的链接,为了开始下一次请求

        $(‘img’).each(function(index,ele){//循环该页面的所有图片并得到对应的链接,放进数组。

            var u = ”;

            if($(ele).attr(‘org_src’)){

                u = $(ele).attr(‘org_src’);

            }else{

                u = $(ele).attr(‘src’);    

            }

            test.push(u);

            //通过superagent 获取图片数据,并保存到本地。

            superagent.get(u).end(function(err,sres){

                if(err)throw err;

                //根据访问路径获得文件名称

                var ttt = u.split(‘/’);

                var name = ttt[ttt.length-1];

                var path = filePath+name

                fs.writeFile(path,sres.body,function(){

                    count++;

                    console.log(u);

                    console.log(‘已成功抓取..’+count+’张’);

                });

            });

        });

        if(null != nextUrl  ” != nextUrl){ //何时开始下一次请求

            getOnePage(nextUrl);

        }

    }); 

 

};

 

getOnePage(”);//触发第一次请求开始

爬虫如何处理js动态

我用Jsoup写爬虫,一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。

1、有些页面元素被隐藏起来了-换selector解决

2、有些数据保存在js/json对象中-截取对应的串,分析解决

3、通过api接口调用-伪造请求获得数据

还有一个终极方法

4、使用phantomjs或者casperjs这种headless浏览器

怎么动态修改js中代码?

这里只是片段,如果是一个封装起来的属性,是没法修改的,我们只能将它当做一个对象来修改后,再执行。如:

var a = {

   gConfig:{

       url:”1.jpg”,

       id:”gameDiv”,

       size:”4*4″,

       margin:1,

       opacity:0.8

       }

};

那么修改url和opacity可以写为a.gConfig.url = ‘newUrl’;a.gConfig.opacity = 0.9;也可以直接修改a.gConfig = {}。

直接修改文档内容是不对的。

原创文章,作者:MEVB,如若转载,请注明出处:https://www.506064.com/n/139935.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
MEVBMEVB
上一篇 2024-10-04 00:23
下一篇 2024-10-04 00:23

相关推荐

  • JS Proxy(array)用法介绍

    JS Proxy(array)可以说是ES6中非常重要的一个特性,它可以代理一个数组,监听数据变化并进行拦截、处理。在实际开发中,使用Proxy(array)可以方便地实现数据的监…

    编程 2025-04-29
  • Python周杰伦代码用法介绍

    本文将从多个方面对Python周杰伦代码进行详细的阐述。 一、代码介绍 from urllib.request import urlopen from bs4 import Bea…

    编程 2025-04-29
  • Python字符串宽度不限制怎么打代码

    本文将为大家详细介绍Python字符串宽度不限制时如何打代码的几个方面。 一、保持代码风格的统一 在Python字符串宽度不限制的情况下,我们可以写出很长很长的一行代码。但是,为了…

    编程 2025-04-29
  • Python爬虫可以爬哪些网站

    Python是被广泛运用于数据处理和分析领域的编程语言之一。它具有易用性、灵活性和成本效益高等特点,因此越来越多的人开始使用它进行网站爬取。本文将从多个方面详细阐述,Python爬…

    编程 2025-04-29
  • Python基础代码用法介绍

    本文将从多个方面对Python基础代码进行解析和详细阐述,力求让读者深刻理解Python基础代码。通过本文的学习,相信大家对Python的学习和应用会更加轻松和高效。 一、变量和数…

    编程 2025-04-29
  • Python满天星代码:让编程变得更加简单

    本文将从多个方面详细阐述Python满天星代码,为大家介绍它的优点以及如何在编程中使用。无论是刚刚接触编程还是资深程序员,都能从中获得一定的收获。 一、简介 Python满天星代码…

    编程 2025-04-29
  • 仓库管理系统代码设计Python

    这篇文章将详细探讨如何设计一个基于Python的仓库管理系统。 一、基本需求 在着手设计之前,我们首先需要确定仓库管理系统的基本需求。 我们可以将需求分为以下几个方面: 1、库存管…

    编程 2025-04-29
  • 写代码新手教程

    本文将从语言选择、学习方法、编码规范以及常见问题解答等多个方面,为编程新手提供实用、简明的教程。 一、语言选择 作为编程新手,选择一门编程语言是很关键的一步。以下是几个有代表性的编…

    编程 2025-04-29
  • Python实现简易心形代码

    在这个文章中,我们将会介绍如何用Python语言编写一个非常简单的代码来生成一个心形图案。我们将会从安装Python开始介绍,逐步深入了解如何实现这一任务。 一、安装Python …

    编程 2025-04-29
  • 怎么写不影响Python运行的长段代码

    在Python编程的过程中,我们不可避免地需要编写一些长段代码,包括函数、类、复杂的控制语句等等。在编写这些代码时,我们需要考虑代码可读性、易用性以及对Python运行性能的影响。…

    编程 2025-04-29

发表回复

登录后才能评论