php爬蟲學習筆記1(php怎麼爬數據)

本文目錄一覽:

如何用php 編寫網路爬蟲?

pcntl_fork或者swoole_process實現多進程並發。按照每個網頁抓取耗時500ms,開200個進程,可以實現每秒400個頁面的抓取。

curl實現頁面抓取,設置cookie可以實現模擬登錄

simple_html_dom 實現頁面的解析和DOM處理

如果想要模擬瀏覽器,可以使用casperJS。用swoole擴展封裝一個服務介面給PHP層調用

在這裡有一套爬蟲系統就是基於上述技術方案實現的,每天會抓取幾千萬個頁面。

如何入門 php 爬蟲

從爬蟲基本要求來看:

抓取:抓取最基本就是拉網頁回來,所以第一步就是拉網頁回來,慢慢會發現各種問題待優化;

存儲:抓回來一般會用一定策略存下來,可以選擇存文件系統開始,然後以一定規則命名。

分析:對網頁進行文本分析,可以用認為最快最優的辦法,比如正則表達式;

展示:要是做了一堆事情,一點展示輸出都沒有,如何展現價值。

php 實現網路爬蟲

pcntl_fork或者swoole_process實現多進程並發。按照每個網頁抓取耗時500ms,開200個進程,可以實現每秒400個頁面的抓取。

curl實現頁面抓取,設置cookie可以實現模擬登錄

simple_html_dom 實現頁面的解析和DOM處理

如果想要模擬瀏覽器,可以使用casperJS。用swoole擴展封裝一個服務介面給PHP層調用

在這裡有一套爬蟲系統就是基於上述技術方案實現的,每天會抓取幾千萬個頁面。

如何用PHP做網路爬蟲

其實用PHP來爬會非常方便,主要是PHP的正則表達式功能在搜集頁面連接方面很方便,另外PHP的fopen、file_get_contents以及libcur的函數非常方便的下載網頁內容。

具體處理方式就是建立就一個任務隊列,往隊列裡面插入一些種子任務和可以開始爬行,爬行的過程就是循環的從隊列裡面提取一個URL,打開後獲取連接插入隊列中,進行相關的保存。隊列可以使用數組實現。

當然PHP作為但線程的東西,慢慢爬還是可以,怕的就是有的URL打不開,會死在那裡。

php中curl爬蟲 怎麼樣通過網頁獲取所有鏈接

本文承接上面兩篇,本篇中的示例要調用到前兩篇中的函數,做一個簡單的URL採集。一般php採集網路數據會用file_get_contents、file和cURL。不過據說cURL會比file_get_contents、file更快更專業,更適合採集。今天就試試用cURL來獲取網頁上的所有鏈接。示例如下:

?php

/*

* 使用curl 採集hao123.com下的所有鏈接。

*/

include_once(‘function.php’);

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, ”);

// 只需返回HTTP header

curl_setopt($ch, CURLOPT_HEADER, 1);

// 頁面內容我們並不需要

// curl_setopt($ch, CURLOPT_NOBODY, 1);

// 返回結果,而不是輸出它

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$html = curl_exec($ch);

$info = curl_getinfo($ch);

if ($html === false) {

echo “cURL Error: ” . curl_error($ch);

}

curl_close($ch);

$linkarr = _striplinks($html);

// 主機部分,補全用

$host = ”;

if (is_array($linkarr)) {

foreach ($linkarr as $k = $v) {

$linkresult[$k] = _expandlinks($v, $host);

}

}

printf(“p此頁面的所有鏈接為:/ppre%s/pren”, var_export($linkresult , true));

?

function.php內容如下(即為上兩篇中兩個函數的合集):

?php

function _striplinks($document) {

preg_match_all(“‘s*as.*?hrefs*=s*([“‘])?(?(1) (.*?)\1 | ([^s]+))’isx”, $document, $links);

// catenate the non-empty matches from the conditional subpattern

while (list($key, $val) = each($links[2])) {

if (!empty($val))

$match[] = $val;

} while (list($key, $val) = each($links[3])) {

if (!empty($val))

$match[] = $val;

}

// return the links

return $match;

}

/*===================================================================*

Function: _expandlinks

Purpose: expand each link into a fully qualified URL

Input: $links the links to qualify

$URI the full URI to get the base from

Output: $expandedLinks the expanded links

*===================================================================*/

function _expandlinks($links,$URI)

{

$URI_PARTS = parse_url($URI);

$host = $URI_PARTS[“host”];

preg_match(“/^[^?]+/”,$URI,$match);

$match = preg_replace(“|/[^/.]+.[^/.]+$|”,””,$match[0]);

$match = preg_replace(“|/$|”,””,$match);

$match_part = parse_url($match);

$match_root =

$match_part[“scheme”].”://”.$match_part[“host”];

$search = array( “|^http://”.preg_quote($host).”|i”,

“|^(/)|i”,

“|^(?!http://)(?!mailto:)|i”,

“|/./|”,

“|/[^/]+/../|”

);

$replace = array( “”,

$match_root.”/”,

$match.”/”,

“/”,

“/”

);

$expandedLinks = preg_replace($search,$replace,$links);

return $expandedLinks;

}

?

如何用php 編寫網路爬蟲

其實用PHP來爬會非常方便,主要是PHP的正則表達式功能在搜集頁面連接方面很方便,另外PHP的fopen、file_get_contents以及libcur的函數非常方便的下載網頁內容。

原創文章,作者:GAMND,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/331376.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
GAMND的頭像GAMND
上一篇 2025-01-16 15:46
下一篇 2025-01-16 15:46

相關推薦

  • PHP和Python哪個好找工作?

    PHP和Python都是非常流行的編程語言,它們被廣泛應用於不同領域的開發中。但是,在考慮擇業方向的時候,很多人都會有一個問題:PHP和Python哪個好找工作?這篇文章將從多個方…

    編程 2025-04-29
  • Python讀取CSV數據畫散點圖

    本文將從以下方面詳細闡述Python讀取CSV文件並畫出散點圖的方法: 一、CSV文件介紹 CSV(Comma-Separated Values)即逗號分隔值,是一種存儲表格數據的…

    編程 2025-04-29
  • Python爬蟲可以爬哪些網站

    Python是被廣泛運用於數據處理和分析領域的編程語言之一。它具有易用性、靈活性和成本效益高等特點,因此越來越多的人開始使用它進行網站爬取。本文將從多個方面詳細闡述,Python爬…

    編程 2025-04-29
  • Python中讀入csv文件數據的方法用法介紹

    csv是一種常見的數據格式,通常用於存儲小型數據集。Python作為一種廣泛流行的編程語言,內置了許多操作csv文件的庫。本文將從多個方面詳細介紹Python讀入csv文件的方法。…

    編程 2025-04-29
  • 如何用Python統計列表中各數據的方差和標準差

    本文將從多個方面闡述如何使用Python統計列表中各數據的方差和標準差, 並給出詳細的代碼示例。 一、什麼是方差和標準差 方差是衡量數據變異程度的統計指標,它是每個數據值和該數據值…

    編程 2025-04-29
  • Python學習筆記:去除字元串最後一個字元的方法

    本文將從多個方面詳細闡述如何通過Python去除字元串最後一個字元,包括使用切片、pop()、刪除、替換等方法來實現。 一、字元串切片 在Python中,可以通過字元串切片的方式來…

    編程 2025-04-29
  • Python多線程讀取數據

    本文將詳細介紹多線程讀取數據在Python中的實現方法以及相關知識點。 一、線程和多線程 線程是操作系統調度的最小單位。單線程程序只有一個線程,按照程序從上到下的順序逐行執行。而多…

    編程 2025-04-29
  • Python爬取公交數據

    本文將從以下幾個方面詳細闡述python爬取公交數據的方法: 一、準備工作 1、安裝相關庫 import requests from bs4 import BeautifulSou…

    編程 2025-04-29
  • Python兩張表數據匹配

    本篇文章將詳細闡述如何使用Python將兩張表格中的數據匹配。以下是具體的解決方法。 一、數據匹配的概念 在生活和工作中,我們常常需要對多組數據進行比對和匹配。在數據量較小的情況下…

    編程 2025-04-29
  • 爬蟲是一種程序

    爬蟲是一種程序,用於自動獲取互聯網上的信息。本文將從如下多個方面對爬蟲的意義、運行方式、應用場景和技術要點等進行詳細的闡述。 一、爬蟲的意義 1、獲取信息:爬蟲可以自動獲取互聯網上…

    編程 2025-04-29

發表回復

登錄後才能評論