本文目錄一覽:
- 1、如何獲取PhantomJS打開網頁時載入的JS資源
- 2、求助,為什麼phantomjs 無法獲取到網頁最終的數據
- 3、怎麼在windows安裝phantomjs?
- 4、現在用node寫網頁爬蟲用phantomjs和jsdom各有什麼利弊
如何獲取PhantomJS打開網頁時載入的JS資源
1、可以通過瀏覽器的調試功能,例如Firefox按F12,點網路標籤,然後就可以看到網頁的所有數據信息,網頁通過AJAX非同步載入的數據也可以得到。 2、使用抓包類的工具,如SmartSniff,經過分析也可以得到數據也可以得到數據
求助,為什麼phantomjs 無法獲取到網頁最終的數據
phantomjs因為是無頭瀏覽器可以跑js,所以同樣可以跑dom節點,用來進行網頁抓取是再好不過了。
比如我們要批量抓取網頁 「歷史上的今天」 的內容。網站
對dom結構的觀察發現,我們只需要取到 .list li a的title值即可。因此我們利用高級選擇器構建dom片段
var d= ”
var c = document.querySelectorAll(‘.list li a’)
var l = c.length;
for(var i =0;il;i++){
d=d+c[i].title+’\n’
}
之後只需要讓js代碼在phantomjs里跑起來即可~
var page = require(‘webpage’).create();
page.open(”, function (status) { //打開頁面
if (status !== ‘success’) {
console.log(‘FAIL to load the address’);
} else {
console.log(page.evaluate(function () {
var d= ”
var c = document.querySelectorAll(‘.list li a’)
var l = c.length;
for(var i =0;il;i++){
d=d+c[i].title+’\n’
}
return d
}))
}
phantom.exit();
});
最終我們另存為catch.js,在dos裡面執行一下,輸出內容到txt文件(也可以用phantomjs的文件api來寫)
–
怎麼在windows安裝phantomjs?
windows下載與安裝PhantomJS的方法如下:
找到官方下載地址: 下載PhantomJS;
目前官方支持三種操作系統,包括windows\Mac OS\Linux這三大主流的環境,根據運行環境選擇要下載的包,比如運行環境是Windows7,就可以下載Win7系統下的包;
PhantomJS不需要安裝,本身就已經是一個可執行文件,直接下載解壓就可以得到phantomjs.exe;
下載解壓後文件夾如圖所示。
PhantomJS介紹:
PhantomJS是一個伺服器端的 JavaScript API 的WebKit(開源的瀏覽器引擎)。其支持各種Web標準: DOM 處理, CSS 選擇器, JSON, Canvas 和 SVG。PhantomJS可以用於頁面自動化,網路監測,網頁截屏,以及無界面測試等。
現在用node寫網頁爬蟲用phantomjs和jsdom各有什麼利弊
phantomjs實際上就是一個瀏覽器,只是不顯示界面,可以執行頁面的js腳本等。
jsdom主要是方便解析html文本,相當於對字元串進行分析。
phantomjs對資源的要求和消耗都比較大,如果需要的內容從網頁源代碼中可以解析出來,推薦用jsdom,如果頁面複雜,推薦用phantomjs!
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/206812.html