js爬虫修改代码（爬虫修改网页）

本文目录一览：

1、前端js爬虫？
2、如何使用nodejs做爬虫程序
3、爬虫如何处理js动态
4、怎么动态修改js中代码？

前端js爬虫？

纯粹前端的js 是不能跨域获取 cookie的

xxx.com 的js 代码只能得到 xxx.com的cookie，拿不到 yyy.com

当然如果你有办法在 yyy.com 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyy.com 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyy.com 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

如何使用nodejs做爬虫程序

目标

抓取网站上的妹子照片。

第三方模块

superagent : 第三方Nodejs 模块，用于处理服务器和客户端的Http请求。

cheerio : 为服务器端定制的Jquery实现。

思路

通过superagent 获取目标网站的dom

通过cheerio对dom进行解析，获得通用布局。

如果只是爬取一个页面，则可以直接将目标页面的目标元素获取

如果是分页或者多个页面，可以通过循环获得目标链接，进行多次抓取。

实现

这里我们实现一个抓取网站妹子的照片。

目标网址：（对于该网站，并没有恶意攻击的意思.)

代码如下：

//引入第三方和通用模块

var fs = require(‘fs’);//为了将抓取的图片存到本地，使用fs

var superagent = require(‘superagent’);//引入superagent

var cheerio = require(‘cheerio’);//引入jquery实现

var filePath = ‘/node/学习/sis/img/’;//定义抓取妹子文件存放路径

var count = 0;//记录抓取数量

var test = [];

//抓取一个页面的实现。

var getOnePage = function(url){

//因为煎蛋对请求做了限制，所以将cookie加上了。如果你要访问该网站的话，可以通过a href=”;tn=44039180_cprfenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1d9n1DdmWFhuj-9P1c1nWwb0ZwV5Hcvrjm3rH6sPfKWUMw85HfYnjn4nH6sgvPsT6KdThsqpZwYTjCEQLGCpyw9Uz4Bmy-bIi4WUvYETgN-TLwGUv3EPjRLP1msP1TzPjTYnj0vnjfd” target=”_blank” class=”baidu-highlight”浏览器/a查找cookie 并进行替换

superagent.get(url)

.set({

‘user-agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36′

})

.set(‘cookie’,’500322148=53; Hm_lvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454117846; Hm_lpvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454119909′)

.set({

‘accept’ : ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8’,

‘connection’ : ‘keep-alive’,

‘host’ : ‘jandan.net’

})

.end(function(err,sres){//这里是对获取的dom进行处理

if(err)throw err;

var $ = cheerio.load(sres.text);

var nextUrl = $(‘.previous-comment-page’).attr(‘href’);//获得下一页的链接，为了开始下一次请求

$(‘img’).each(function(index,ele){//循环该页面的所有图片并得到对应的链接，放进数组。

var u = ”;

if($(ele).attr(‘org_src’)){

u = $(ele).attr(‘org_src’);

}else{

u = $(ele).attr(‘src’);

}

test.push(u);

//通过superagent 获取图片数据，并保存到本地。

superagent.get(u).end(function(err,sres){

if(err)throw err;

//根据访问路径获得文件名称

var ttt = u.split(‘/’);

var name = ttt[ttt.length-1];

var path = filePath+name

fs.writeFile(path,sres.body,function(){

count++;

console.log(u);

console.log(‘已成功抓取..’+count+’张’);

});

if(null != nextUrl ” != nextUrl){ //何时开始下一次请求

getOnePage(nextUrl);

}

});

};

getOnePage(”);//触发第一次请求开始

爬虫如何处理js动态

我用Jsoup写爬虫，一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。

1、有些页面元素被隐藏起来了-换selector解决

2、有些数据保存在js/json对象中-截取对应的串，分析解决

3、通过api接口调用-伪造请求获得数据

还有一个终极方法

4、使用phantomjs或者casperjs这种headless浏览器

怎么动态修改js中代码？

这里只是片段，如果是一个封装起来的属性，是没法修改的，我们只能将它当做一个对象来修改后，再执行。如：

var a = {

gConfig:{

url:”1.jpg”,

id:”gameDiv”,

size:”4*4″,

margin:1,

opacity:0.8

}

};

那么修改url和opacity可以写为a.gConfig.url = ‘newUrl’;a.gConfig.opacity = 0.9;也可以直接修改a.gConfig = {}。

直接修改文档内容是不对的。

原创文章，作者：MEVB，如若转载，请注明出处：https://www.506064.com/n/139935.html