js爬蟲嵌入網頁（js爬取網頁）

本文目錄一覽：

爬蟲就是自動提取網頁的程序，如百度的蜘蛛等，要想讓自己的網站更多頁面被收錄，首先就要讓網頁被爬蟲抓取。

如果你的網站頁面經常更新，爬蟲就會更加頻繁的訪問頁面，優質的內容更是爬蟲喜歡抓取的目標，尤其是原創內容。

如果你做了許多努力仍沒有被爬蟲抓取，可以看一下老漁哥給出的兩點建議：

1、不建議站點使用js生成主體內容，如過js渲染出錯，很可能導致頁面內容讀取錯誤，頁面則無法被爬蟲抓取。

2、許多站點會針對爬蟲做優化，建議頁面長度在128k之內，不要過長。

不是爬不到

是因為用js生成的網頁，是通過瀏覽器載入js代碼之後，由js動態生成的。

用爬蟲直接去抓網頁的話，抓下來的是原始代碼，瀏覽器還未解析過的內容。

純 html 的話，抓下來可以直接拿來用，但是如果是由 js 動態生成的網頁的話，就沒辦法直接用了。

像通過js動態載入的網頁，理論上如果能用開源的瀏覽器內核將網頁解析出來的話，通過瀏覽器內核提供的介面，完全可以把網頁最終的 html 拿出來

純粹前端的js 是不能跨域獲取 cookie的

xxx.com 的js 代碼只能得到 xxx.com的cookie，拿不到 yyy.com

當然如果你有辦法在 yyy.com 寫入受到自己控制的 html文件，你就可以寫代碼去拿到對應的cookie，但看你的需求應該你沒有yyy.com 的許可權

所以要結合其他方案，推薦一下兩種：

使用 electron ，electron 你可以認為是受js控制的瀏覽器引擎，所以你可以用它訪問 yyy.com 拿到cookie，再接著做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 庫）

Puppeteer 提供了一系列的 API，可以在無 UI 的情況下調用 Chrome 的各種功能，適用於爬蟲、自動化處理等各種情景。

這種情況我自己還沒有試過，只是藉助爬蟲框架pyspider結合PhantomJS，這樣就可以在python裡面嵌入一些js代碼，實現點擊，下拉等操作啦。

1. 分析ajax數據

2. 提取抓取的js數據, 然後使用Rhino js引擎執行js並且獲取提取結果. (速度還是有些影響的)

我記得python做爬蟲是先把網頁下載，然後再對數據進行解析，那麼其實是什麼生成的就無所謂了吧？？因為js代碼也是屬於網頁標籤，並且js不能直接顯示成網頁內容，也需要對網頁寫入html標籤，所以應該和普通的爬蟲代碼是差不多的，，只是解析的時候需要先對網頁進行分析。

原創文章，作者：KBWG，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/140051.html