python如何爬取js,python爬取百度貼吧

本文目錄一覽：

js代碼是需要js引擎運行的，Python只能通過HTTP請求獲取到HTML、CSS、JS原始代碼而已。

不知道有沒有用Python編寫的JS引擎，估計需求不大。

我一般用PhantomJS、CasperJS這些引擎來做瀏覽器抓取。

直接在其中寫JS代碼來做DOM操控、分析，以文件方式輸出結果。

讓Python去調用該程序，通過讀文件方式獲得內容。

對於這種動態加載的網站，建議使用第三方庫selenium爬取。

它可以完全模擬瀏覽器，等待網站全部加載完成後再進行數據的自動獲取。

對於主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持，網站上的元素也支持多種選擇器，如class、id、xpath等。

但是用習慣以後，對於這種非純靜態頁面，離開selenium感覺就完全不會爬蟲了。

1、打開pycharm開發工具，點擊File菜單，選擇Settings…，進行第三方模塊安裝；輸入selenium，點擊Install Package。

2、接着在python項目的指定文件夾下，鼠標右鍵新建python文件，輸入文件名並點擊Python file。

3、打開新建的文件，依次導入selenium、webdriver和time。

4、調用webdriver模塊中的Chrome()，使用get()獲取對應網址的內容。

5、調用find_element_by_id()獲取對應頁面元素，然後調用按鈕點擊事件。

6、修改get()方法中的請求路徑，然後保存代碼並運行文件，查看運行結果。

一、查看相應的js代碼，用python獲取原始數據之後，模仿js編寫相應的python代碼。

二、通過接口api獲得數據，直接使用python獲取接口數據並處理。

三。終極方法。使用 Selenium和PhantomJS執行網頁js代碼，然後再獲取數據，這種方法100%可以獲取數據，確定就是速度太慢。

打開瀏覽器，以google chrome為例，輸入你上面的網址。

然後按F12打開調試窗口，然後嘗試勾選左邊某一個選項，馬上可以看到右邊的調試窗口有東西輸出。

找到第一個輸出的行，點擊header，可以看到每一個都是用的post方法。

所以只需要構造相應的header並post上去，就可以得到你想要的數據了。

嘗試每一個request都點開看一下

就是你要構造的數據

FormData就是你要構造的數據

把數據構造好然後使用post函數發送給網站

這個得到的是一個網頁格式的數據。

而這個發放返回的是json數據，然後編碼成dict格式提取出數據就可以了。

原創文章，作者：QGNM，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/148623.html