PHP curl头部设置实现网页爬虫

一、前言

近年来，网页爬虫成为广大程序员所追求的技术之一，它可以从网络中抓取数据，帮助用户更加高效地处理文本数据。而在实现爬虫的过程中，curl 可谓必备工具之一。

CURL（Client Uniform Resource Locator）库是一个用 C 风格编写的开源文件传输工具库，它支持http、https、ftp、gopher、telnet、dict，file和LDAP等传输协议。本篇文章将围绕着 PHP 中的 curl 库如何使用头部设置实现网页爬虫展开讲解。

二、curl库的安装及基本使用

在使用 curl 库之前，我们需要确保其已经在我们的环境中处于可用状态。我们使用如下命令来检查 curl 是否已经安装成功：

php -i | grep curl

输出信息如下表示 curl 库已经被正确安装：

cURL support => enabled
cURL Information => 7.54.0

简单来说，curl 库可以通过命令行调用，也可以通过 PHP 代码来执行。例如，我们可以使用 curl 库来访问百度搜索首页，示例代码如下：

<?php
    $curl = curl_init();
    curl_setopt($curl, CURLOPT_URL, "http://www.baidu.com");
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
    $data = curl_exec($curl);
    curl_close($curl);
    echo $data;
?>

在执行代码后，我们可以得到百度首页的完整 HTML 代码，并通过 echo 命令输出到页面上。

三、curl 库头部设置

除了基本的 curl 库使用，头部设置对于 HTTP 协议请求也是至关重要的。

头部设置可以添加、修改和删除 HTTP 请求头部数据，常见的头部设置项包括：User-Agent、Cookie、Referer 等，以模拟网络浏览器的行为。

四、爬取指定网站数据

爬虫的核心当然是数据抓取，使用 curl 库库，可以轻松地实现接口请求并返回数据。

以抓取新闻网站为例，我们需要先获取到网站的地址，并将其作为 CURLOPT_URL 的参数。接着，我们将需要获取的数据所在的元素的 Xpath 路径存储在 $img_path 和 $txt_path 中，然后使用 XPath 函数获取到需要抓取的数据。

<?php
    function curl_get($url){
        $curl = curl_init();
        curl_setopt($curl, CURLOPT_URL, $url);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
        $data = curl_exec($curl);
        curl_close($curl);
        return $data;
    }
    $url = 'http://news.sina.com.cn/';
    $html = curl_get($url);
    preg_match_all('/.+/', $html, $match1);
    $title = $match1[2];
    $link = $match1[1];
    $i = 0;
    while($i++<5){
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $link[$i]);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
        curl_setopt($ch, CURLOPT_HEADER, false);
        $content = curl_exec($ch);
        curl_close($ch);
        $doc = new DOMDocument();
        @$doc->loadHTML($content);
        $xpath = new DOMXPath($doc);
        echo "文章标题：" . $title[$i - 1]."<br>";
        echo "文章内容：" . $xpath->evaluate('string(//div[@id="article"])') . "<br><br>";
    }
?>