本文目錄一覽:
- 1、如何用php偽造瀏覽器ua?
- 2、PHP 模擬HTTP發送POST請求
- 3、php get請求中的請求頭應該如何設置
- 4、如何在php中獲取curl請求的請求頭信息及相應頭信息
- 5、php爬蟲程序中怎麼樣偽造ip地址防止被封
如何用php偽造瀏覽器ua?
file_get_contents 和 curl 這倆強悍的函數,在遠程抓取時候相當有用處。不過一些網站會根據來訪ip是否攜帶user_agent來判斷是正常的瀏覽器客戶端還是機器。所以,我們的任務就是給他們偽造user_agent。
file_get_contents偽造user_agent 方法如下:
ini_set(‘user_agent’,’Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;)’);
curl偽造user_agent的方法:
curl_setopt($c, CURLOPT_USERAGENT, ‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;)’);
附帶上curl的完整函數方法:
function curl_get_file_contents($URL)
{
$c = curl_init();
curl_setopt($c, CURLOPT_RETURNTRANSFER, 1);
//curl_setopt($c, CURLOPT_HEADER, 1);//輸出遠程伺服器的header信息
curl_setopt($c, CURLOPT_USERAGENT, ‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;)’);
curl_setopt($c, CURLOPT_URL, $URL);
$contents = curl_exec($c);
curl_close($c);
if ($contents) {return $contents;}
else {return FALSE;}
}
這樣就可以抓取了,user_agent是可以自己修改的。
PHP 模擬HTTP發送POST請求
用php模擬登陸主要分為三部分1. post數據。2.根據返回的http頭,從中截出cookie段。3.偽造http頭髮送請求。 我這裡以用php抓取163相冊的需要密碼才能訪問的目錄為例。?phpfunction posttohost($url, $data) //post數據if (!isset($url[‘query’])) $encoded = “”;foreach ($data as $k=$v) $fp = fsockopen($url[‘host’], $url[‘port’] ? $url[‘port’] : 80);if (!$fp) return “Failed to open socket to $url[host]”;fputs($fp, sprintf(“POST %s%s%s HTTP/1.0\n”, $url[‘path’], $url[‘query’] ? “?” : “”, $url[‘query’]));fputs($fp, “Host: $url[host]\n”);fputs($fp, “Content-type: application/x-www-form-urlencoded\n”);fputs($fp, “Content-length: ” . strlen($encoded) . “\n”);fputs($fp, “Connection: close\n\n”);fputs($fp, “$encoded\n”);$line = fgets($fp,1024);if (!eregi(“^HTTP/1\.. 200”, $line)) return;$results = “”; $inheader = 1;while(!feof($fp)) elseif ($inheader) }fclose($fp);return $results;} 答案補充 function getjs($juser,$jaid,$jcookie) //偽造http頭 答案補充 else fclose( $socket ); return $ret;}}$iurl=’ ‘.$iuser.’/’.$aid.’/’;$idata=array (‘pass’=$pass,’checking’=’1′); //通過winsock抓包發現,輸入訪問密碼,會向163相冊發送 pass=密碼checking=1$mystr=posttohost($iurl,$idata);$pattern=’/HALFORDER=(.*?);/’;preg_match($pattern,$mystr,$out);$str=getjs($iuser,$aid,$out[1]);echo $str;?
php get請求中的請求頭應該如何設置
獲取請求頭信息,可以在curl_exec函數執行前,添加代碼curl_setopt($ch,CURLINFO_HEADER_OUT,true);在curl_exec函數執行後,通過 curl_getinfo($ch,CURLINFO_HEADER_OUT) 來獲取curl執行請求的請求數據。
獲取響應頭信息,可以在curl_exec函數執行前,添加代碼 curl_setopt($ch, CURLOPT_HEADER, true);curl_setopt($ch, CURLOPT_NOBODY,true); 之後 通過curl_exec函數來獲取響應頭信息。獲取設置 curl_setopt($ch, CURLOPT_NOBODY,false);然後對curl_exec獲取的值通過\r\n\r\n進行分割截取第一部分即為響應頭信息。
如何在php中獲取curl請求的請求頭信息及相應頭信息
獲取請求頭信息,可以在curl_exec函數執行前,添加代碼curl_setopt($ch,CURLINFO_HEADER_OUT,true);在curl_exec函數執行後,通過 curl_getinfo($ch,CURLINFO_HEADER_OUT) 來獲取curl執行請求的請求數據。
獲取響應頭信息,可以在curl_exec函數執行前,添加代碼 curl_setopt($ch, CURLOPT_HEADER, true);curl_setopt($ch, CURLOPT_NOBODY,true); 之後 通過curl_exec函數來獲取響應頭信息。獲取設置 curl_setopt($ch, CURLOPT_NOBODY,false);然後對curl_exec獲取的值通過\r\n\r\n進行分割截取第一部分即為響應頭信息。
php爬蟲程序中怎麼樣偽造ip地址防止被封
1、國內ADSL是王道,多申請些線路,分布在多個不同的電信區局,能跨省跨市更好,自己寫好斷線重撥組件,自己寫動態IP追蹤服務,遠程硬體重置(主要針對ADSL貓,防止其宕機),其餘的任務分配,數據回收~
2、1.IP必須需要,,ADSL。如果有條件,其實可以跟機房多申請外網IP。
2.在有外網IP的機器上,部署代理伺服器。
3.你的程序,使用輪訓替換代理伺服器來訪問想要採集的網站。
3、ADSL + 腳本,監測是否被封,然後不斷切換 ip
設置查詢頻率限制
正統的做法是調用該網站提供的服務介面。
4、
1 user agent 偽裝和輪換
2 使用代理 ip 和輪換
3 cookies 的處理,有的網站對登陸用戶政策寬鬆些
友情提示:考慮爬蟲給人家網站帶來的負擔,be a responsible crawler
5、
儘可能的模擬用戶行為:
1、UserAgent經常換一換;
2、訪問時間間隔設長一點,訪問時間設置為隨機數;
3、訪問頁面的順序也可以隨機著來
6、
1. 對爬蟲抓取進行壓力控制;
2. 可以考慮使用代理的方式訪問目標站點。
-降低抓取頻率,時間設置長一些,訪問時間採用隨機數
-頻繁切換UserAgent(模擬瀏覽器訪問)
-多頁面數據,隨機訪問然後抓取數據
-更換用戶IP
原創文章,作者:UP5XF,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/129553.html