php爬蟲學習筆記1（php怎麼爬數據）

本文目錄一覽：

1、如何用php 編寫網路爬蟲?
2、如何入門 php 爬蟲
3、php 實現網路爬蟲
4、如何用PHP做網路爬蟲
5、php中curl爬蟲怎麼樣通過網頁獲取所有鏈接
6、如何用php 編寫網路爬蟲

如何用php 編寫網路爬蟲?

pcntl_fork或者swoole_process實現多進程並發。按照每個網頁抓取耗時500ms，開200個進程，可以實現每秒400個頁面的抓取。

curl實現頁面抓取，設置cookie可以實現模擬登錄

simple_html_dom 實現頁面的解析和DOM處理

如果想要模擬瀏覽器，可以使用casperJS。用swoole擴展封裝一個服務介面給PHP層調用

在這裡有一套爬蟲系統就是基於上述技術方案實現的，每天會抓取幾千萬個頁面。

如何入門 php 爬蟲

從爬蟲基本要求來看：

抓取：抓取最基本就是拉網頁回來，所以第一步就是拉網頁回來，慢慢會發現各種問題待優化；

存儲：抓回來一般會用一定策略存下來，可以選擇存文件系統開始，然後以一定規則命名。

分析：對網頁進行文本分析，可以用認為最快最優的辦法，比如正則表達式；

展示：要是做了一堆事情，一點展示輸出都沒有，如何展現價值。

php 實現網路爬蟲

pcntl_fork或者swoole_process實現多進程並發。按照每個網頁抓取耗時500ms，開200個進程，可以實現每秒400個頁面的抓取。

curl實現頁面抓取，設置cookie可以實現模擬登錄

simple_html_dom 實現頁面的解析和DOM處理

如果想要模擬瀏覽器，可以使用casperJS。用swoole擴展封裝一個服務介面給PHP層調用

在這裡有一套爬蟲系統就是基於上述技術方案實現的，每天會抓取幾千萬個頁面。

如何用PHP做網路爬蟲

其實用PHP來爬會非常方便，主要是PHP的正則表達式功能在搜集頁面連接方面很方便，另外PHP的fopen、file_get_contents以及libcur的函數非常方便的下載網頁內容。

具體處理方式就是建立就一個任務隊列，往隊列裡面插入一些種子任務和可以開始爬行，爬行的過程就是循環的從隊列裡面提取一個URL，打開後獲取連接插入隊列中，進行相關的保存。隊列可以使用數組實現。

當然PHP作為但線程的東西，慢慢爬還是可以，怕的就是有的URL打不開，會死在那裡。

php中curl爬蟲怎麼樣通過網頁獲取所有鏈接

本文承接上面兩篇，本篇中的示例要調用到前兩篇中的函數，做一個簡單的URL採集。一般php採集網路數據會用file_get_contents、file和cURL。不過據說cURL會比file_get_contents、file更快更專業，更適合採集。今天就試試用cURL來獲取網頁上的所有鏈接。示例如下：

?php

* 使用curl 採集hao123.com下的所有鏈接。

include_once(‘function.php’);

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, ”);

// 只需返回HTTP header

curl_setopt($ch, CURLOPT_HEADER, 1);

// 頁面內容我們並不需要

// curl_setopt($ch, CURLOPT_NOBODY, 1);

// 返回結果，而不是輸出它

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$html = curl_exec($ch);

$info = curl_getinfo($ch);

if ($html === false) {

echo “cURL Error: ” . curl_error($ch);

}

curl_close($ch);

$linkarr = _striplinks($html);

// 主機部分，補全用

$host = ”;

if (is_array($linkarr)) {

foreach ($linkarr as $k = $v) {

$linkresult[$k] = _expandlinks($v, $host);

}

printf(“p此頁面的所有鏈接為：/ppre%s/pren”, var_export($linkresult , true));

function.php內容如下（即為上兩篇中兩個函數的合集）：

?php

function _striplinks($document) {

preg_match_all(“‘s*as.*?hrefs*=s*([“‘])?(?(1) (.*?)\1 | ([^s]+))’isx”, $document, $links);

// catenate the non-empty matches from the conditional subpattern

while (list($key, $val) = each($links[2])) {

if (!empty($val))

$match[] = $val;

} while (list($key, $val) = each($links[3])) {

if (!empty($val))

$match[] = $val;

}

// return the links

return $match;

}

/*===================================================================*

Function: _expandlinks

Purpose: expand each link into a fully qualified URL

Input: $links the links to qualify

$URI the full URI to get the base from

Output: $expandedLinks the expanded links

*===================================================================*/

function _expandlinks($links,$URI)

{

$URI_PARTS = parse_url($URI);

$host = $URI_PARTS[“host”];

preg_match(“/^[^?]+/”,$URI,$match);

$match = preg_replace(“|/[^/.]+.[^/.]+$|”,””,$match[0]);

$match = preg_replace(“|/$|”,””,$match);

$match_part = parse_url($match);

$match_root =

$match_part[“scheme”].”://”.$match_part[“host”];

$search = array( “|^http://”.preg_quote($host).”|i”,

“|^(/)|i”,

“|^(?!http://)(?!mailto:)|i”,

“|/./|”,

“|/[^/]+/../|”

);

$replace = array( “”,

$match_root.”/”,

$match.”/”,

“/”,

“/”

);

$expandedLinks = preg_replace($search,$replace,$links);

return $expandedLinks;

}

如何用php 編寫網路爬蟲

原創文章，作者：GAMND，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/331376.html