python爬蟲解析js,python爬蟲解析工具

本文目錄一覽：

對於這種動態加載的網站，建議使用第三方庫selenium爬取。

它可以完全模擬瀏覽器，等待網站全部加載完成後再進行數據的自動獲取。

對於主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持，網站上的元素也支持多種選擇器，如class、id、xpath等。

但是用習慣以後，對於這種非純靜態頁面，離開selenium感覺就完全不會爬蟲了。

打開瀏覽器，以google chrome為例，輸入你上面的網址。

然後按F12打開調試窗口，然後嘗試勾選左邊某一個選項，馬上可以看到右邊的調試窗口有東西輸出。

找到第一個輸出的行，點擊header，可以看到每一個都是用的post方法。

所以只需要構造相應的header並post上去，就可以得到你想要的數據了。

嘗試每一個request都點開看一下

就是你要構造的數據

FormData就是你要構造的數據

把數據構造好然後使用post函數發送給網站

這個得到的是一個網頁格式的數據。

而這個發放返回的是json數據，然後編碼成dict格式提取出數據就可以了。

我們一直使用思路二中的方法1，也就是說用一個瀏覽器內容來運行JavaScript和解析動態內容，而用python模擬人在瀏覽器上做動作。

這

個實現方案最自然，雖然有人一直在批評這樣的速度比較慢，但是在實際運行環境中，大部分情況下你會擔心運行得太快了，我們採集這些網站的目的往往是為了

BI項目或者數據分析，會集中且持續地從同一個目標網站上抓取數據，會給這個網站造成很大壓力，從而會被封鎖或者遇到驗證碼，所以，速度問題並不是關鍵問

題。

用一個瀏覽器內容去模擬人的動作，省去用Firebug甚至底層抓包工具去一點點分析每個ajax消息。要知道，現在越來越多的網站使用ajax技術，持續不斷的發送xmlhttprequest請求，要是挨個抓包分析，工作量太大了。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/306146.html