PHP curl頭部設置實現網頁爬蟲

一、前言

近年來，網頁爬蟲成為廣大程序員所追求的技術之一，它可以從網絡中抓取數據，幫助用戶更加高效地處理文本數據。而在實現爬蟲的過程中，curl 可謂必備工具之一。

CURL（Client Uniform Resource Locator）庫是一個用 C 風格編寫的開源文件傳輸工具庫，它支持http、https、ftp、gopher、telnet、dict，file和LDAP等傳輸協議。本篇文章將圍繞着 PHP 中的 curl 庫如何使用頭部設置實現網頁爬蟲展開講解。

二、curl庫的安裝及基本使用

在使用 curl 庫之前，我們需要確保其已經在我們的環境中處於可用狀態。我們使用如下命令來檢查 curl 是否已經安裝成功：

php -i | grep curl

輸出信息如下表示 curl 庫已經被正確安裝：

cURL support => enabled
cURL Information => 7.54.0

簡單來說，curl 庫可以通過命令行調用，也可以通過 PHP 代碼來執行。例如，我們可以使用 curl 庫來訪問百度搜索首頁，示例代碼如下：

<?php
    $curl = curl_init();
    curl_setopt($curl, CURLOPT_URL, "http://www.baidu.com");
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
    $data = curl_exec($curl);
    curl_close($curl);
    echo $data;
?>

在執行代碼後，我們可以得到百度首頁的完整 HTML 代碼，並通過 echo 命令輸出到頁面上。

三、curl 庫頭部設置

除了基本的 curl 庫使用，頭部設置對於 HTTP 協議請求也是至關重要的。

頭部設置可以添加、修改和刪除 HTTP 請求頭部數據，常見的頭部設置項包括：User-Agent、Cookie、Referer 等，以模擬網絡瀏覽器的行為。

四、爬取指定網站數據

爬蟲的核心當然是數據抓取，使用 curl 庫庫，可以輕鬆地實現接口請求並返回數據。

以抓取新聞網站為例，我們需要先獲取到網站的地址，並將其作為 CURLOPT_URL 的參數。接着，我們將需要獲取的數據所在的元素的 Xpath 路徑存儲在 $img_path 和 $txt_path 中，然後使用 XPath 函數獲取到需要抓取的數據。

<?php
    function curl_get($url){
        $curl = curl_init();
        curl_setopt($curl, CURLOPT_URL, $url);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
        $data = curl_exec($curl);
        curl_close($curl);
        return $data;
    }
    $url = 'http://news.sina.com.cn/';
    $html = curl_get($url);
    preg_match_all('/.+/', $html, $match1);
    $title = $match1[2];
    $link = $match1[1];
    $i = 0;
    while($i++<5){
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $link[$i]);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
        curl_setopt($ch, CURLOPT_HEADER, false);
        $content = curl_exec($ch);
        curl_close($ch);
        $doc = new DOMDocument();
        @$doc->loadHTML($content);
        $xpath = new DOMXPath($doc);
        echo "文章標題：" . $title[$i - 1]."<br>";
        echo "文章內容：" . $xpath->evaluate('string(//div[@id="article"])') . "<br><br>";
    }
?>