說起爬蟲,對於不熟悉編程的同學來說總有一絲神秘感,覺得離我們很遠,其實爬蟲的應用非常廣泛,從搜索引擎,到搶票軟件,這背後是網絡爬蟲的功勞。
今天老Y給大家推薦一款功能非常強大的網絡爬蟲軟件,它的操作非常簡單,適合小白,而且良心的是,免費功能足夠使用!
它可以抓取涉及電商行業、新聞媒體、企業信息、生活服務、房源、休閑旅遊等各類信息。
比如你可以抓取淘寶上某類商品的全部信息(圖片、價格、店鋪名稱、月銷量、累計評價……)


比如所你可以抓取大眾點評上你的城市所有自助餐廳的信息(地址、價格、評價……)


比如你可以抓取馬蜂窩上所有泰國自由行的信息(攻略標題、閱讀數、收藏量、攻略內容……)


……
是不是非常有趣?
更厲害的是!官網提供了大量的實戰教程(文字版+視頻版),也可以進行教程的搜索,對於小白選手來說,真是太棒了!

后羿採集器 (http://www.houyicaiji.com)
下面,我們就以抓取馬蜂窩上所有泰國自由行的信息為例,實際操作一下:
1、下載軟件安裝註冊登錄後,複製馬蜂窩泰國自由行旅行攻略的網頁。

2、新建智能模式採集任務
也可以在軟件上直接新建採集任務,也可以通過導入規則來創建任務。

3、設置提取數據字段
智能模式下,輸入網址後軟件即可自動識別出頁面上的數據並生成採集結果,每一類數據對應一個採集字段,可以右擊修改字段名稱、增減字段、處理數據等。

比如需要採集攻略的攻略標題、攻略鏈接、閱讀量、體驗人數以及封面圖等信息,設置效果如下

4、提取詳情頁數據
列表頁上有泰國自由行攻略的部分信息,我們需要攻略的具體內容,右擊攻略鏈接使用「深入採集」功能,跳轉到詳情頁進行採集。

在詳情頁面可以看到攻略的詳細內容、評論數等信息,還可以看到非常多的圖片,如果一 一設置字段,會非常多,而且每篇的圖片位置不同,所以可以添加一個特殊字段,「頁面PDF」。

5、設置採集任務
點擊「設置」按鈕,可以進行運行設置和防屏蔽設置,這裡我們勾選「跳過繼續採集」,設置「5」秒請求等待時間,勾選「不加載網頁圖片」,防屏蔽設置默認設置,點擊保存。

6、開始採集
點擊「保存並啟動」按鈕,彈出一些高級設置,直接點擊「啟動」運行工具。

7、提取數據
任務啟動之後開始自動採集數據,可以直觀的看到程序運行過程和採集結果,採集結束之後有提醒。

8、導出數據
數據採集完成後,可以查看和導出數據,軟件支持多種導出方式和導出文件的格式(EXCEL、CSV、HTML和TXT),選擇自己需要方式和文件類型,點擊「確認導出」。

好了,上面是一個簡單的例子。看完之後,是不是發現,原來爬蟲爬取數據也可以這麼簡單!有興趣的小夥伴快去試試吧。
原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/226918.html