本文目錄一覽:
- 1、python requests.post返回json()報錯
- 2、python怎麼響應後端發送get,post請求的接口
- 3、如何使用python 開發一個api
- 4、python requests 的get和post的區別
- 5、如何使用 Python 得到網頁返回正確的 Json 數據
- 6、python 新浪微博爬蟲,求助
python requests.post返回json()報錯
①GET
# -*- coding:utf-8 -*-
import requests
def get(url, datas=None):
response = requests.get(url, params=datas)
json = response.json()
return json
註:參數datas為json格式
②POST
# -*- coding:utf-8 -*-
import requests
def post(url, datas=None):
response = requests.post(url, data=datas)
json = response.json()
return json
註:參數datas為json格式
python怎麼響應後端發送get,post請求的接口
測試用CGI,名字為test.py,放在apache的cgi-bin目錄下:
#!/usr/bin/Python
import cgi
def main():
print “Content-type: text/html\n”
form = cgi.FieldStorage()
if form.has_key(“ServiceCode”) and form[“ServiceCode”].value != “”:
print “h1 Hello”,form[“ServiceCode”].value,”/h1″
else:
print “h1 Error! Please enter first name./h1”
main()
python發送post和get請求
get請求:
使用get方式時,請求數據直接放在url中。
方法一、
import urllib
import urllib2
url = “”
req = urllib2.Request(url)
print req
res_data = urllib2.urlopen(req)
res = res_data.read()
print res
方法二、
import httplib
url = “”
conn = httplib.HTTPConnection(“192.168.81.16”)
conn.request(method=”GET”,url=url)
response = conn.getresponse()
res= response.read()
print res
post請求:
使用post方式時,數據放在data或者body中,不能放在url中,放在url中將被忽略。
方法一、
import urllib
import urllib2
test_data = {‘ServiceCode’:’aaaa’,’b’:’bbbbb’}
test_data_urlencode = urllib.urlencode(test_data)
requrl = “”
req = urllib2.Request(url = requrl,data =test_data_urlencode)
print req
res_data = urllib2.urlopen(req)
res = res_data.read()
print res
方法二、
import urllib
import httplib
test_data = {‘ServiceCode’:’aaaa’,’b’:’bbbbb’}
test_data_urlencode = urllib.urlencode(test_data)
requrl = “”
headerdata = {“Host”:”192.168.81.16″}
conn = httplib.HTTPConnection(“192.168.81.16”)
conn.request(method=”POST”,url=requrl,body=test_data_urlencode,headers = headerdata)
response = conn.getresponse()
res= response.read()
print res
對python中json的使用不清楚,所以臨時使用了urllib.urlencode(test_data)方法;
模塊urllib,urllib2,httplib的區別
httplib實現了http和https的客戶端協議,但是在python中,模塊urllib和urllib2對httplib進行了更上層的封裝。
介紹下例子中用到的函數:
1、HTTPConnection函數
httplib.HTTPConnection(host[,port[,stict[,timeout]]])
這個是構造函數,表示一次與服務器之間的交互,即請求/響應
host 標識服務器主機(服務器IP或域名)
port 默認值是80
strict 模式是False,表示無法解析服務器返回的狀態行時,是否拋出BadStatusLine異常
例如:
conn = httplib.HTTPConnection(“192.168.81.16″,80) 與服務器建立鏈接。
2、HTTPConnection.request(method,url[,body[,header]])函數
這個是向服務器發送請求
method 請求的方式,一般是post或者get,
例如:
method=”POST”或method=”Get”
url 請求的資源,請求的資源(頁面或者CGI,我們這裡是CGI)
例如:
url=”” 請求CGI
或者
url=”” 請求頁面
body 需要提交到服務器的數據,可以用json,也可以用上面的格式,json需要調用json模塊
headers 請求的http頭headerdata = {“Host”:”192.168.81.16″}
例如:
test_data = {‘ServiceCode’:’aaaa’,’b’:’bbbbb’}
test_data_urlencode = urllib.urlencode(test_data)
requrl = “”
headerdata = {“Host”:”192.168.81.16″}
conn = httplib.HTTPConnection(“192.168.81.16″,80)
conn.request(method=”POST”,url=requrl,body=test_data_urlencode,headers = headerdata)
conn在使用完畢後,應該關閉,conn.close()
3、HTTPConnection.getresponse()函數
這個是獲取http響應,返回的對象是HTTPResponse的實例。
4、HTTPResponse介紹:
HTTPResponse的屬性如下:
read([amt]) 獲取響應消息體,amt表示從響應流中讀取指定字節的數據,沒有指定時,將全部數據讀出;
getheader(name[,default]) 獲得響應的header,name是表示頭域名,在沒有頭域名的時候,default用來指定返回值
getheaders() 以列表的形式獲得header
例如:
date=response.getheader(‘date’);
print date
resheader=”
resheader=response.getheaders();
print resheader
列形式的響應頭部信息:
[(‘content-length’, ‘295’), (‘accept-ranges’, ‘bytes’), (‘server’, ‘Apache’), (‘last-modified’, ‘Sat, 31 Mar 2012 10:07:02 GMT’), (‘connection’, ‘close’), (‘etag’, ‘”e8744-127-4bc871e4fdd80″‘), (‘date’, ‘Mon, 03 Sep 2012 10:01:47 GMT’), (‘content-type’, ‘text/html’)]
date=response.getheader(‘date’);
print date
取出響應頭部的date的值。
******************************************************************************************************************************************************************************************************************************************************
所謂網頁抓取,就是把URL地址中指定的網絡資源從網絡流中讀取出來,保存到本地。
類似於使用程序模擬IE瀏覽器的功能,把URL作為HTTP請求的內容發送到服務器端, 然後讀取服務器端的響應資源。
在Python中,我們使用urllib2這個組件來抓取網頁。
urllib2是Python的一個獲取URLs(Uniform Resource Locators)的組件。
它以urlopen函數的形式提供了一個非常簡單的接口。
最簡單的urllib2的應用代碼只需要四行。
我們新建一個文件urllib2_test01.py來感受一下urllib2的作用:
import urllib2
response = urllib2.urlopen(”)
html = response.read()
print html
按下F5可以看到運行的結果:
我們可以打開百度主頁,右擊,選擇查看源代碼(火狐OR谷歌瀏覽器均可),會發現也是完全一樣的內容。
也就是說,上面這四行代碼將我們訪問百度時瀏覽器收到的代碼們全部打印了出來。
這就是一個最簡單的urllib2的例子。
除了”http:”,URL同樣可以使用”ftp:”,”file:”等等來替代。
HTTP是基於請求和應答機制的:
客戶端提出請求,服務端提供應答。
urllib2用一個Request對象來映射你提出的HTTP請求。
在它最簡單的使用形式中你將用你要請求的地址創建一個Request對象,
通過調用urlopen並傳入Request對象,將返回一個相關請求response對象,
這個應答對象如同一個文件對象,所以你可以在Response中調用.read()。
我們新建一個文件urllib2_test02.py來感受一下:
import urllib2
req = urllib2.Request(”)
response = urllib2.urlopen(req)
the_page = response.read()
print the_page
可以看到輸出的內容和test01是一樣的。
urllib2使用相同的接口處理所有的URL頭。例如你可以像下面那樣創建一個ftp請求。
req = urllib2.Request(”)
在HTTP請求時,允許你做額外的兩件事。
1.發送data表單數據
這個內容相信做過Web端的都不會陌生,
有時候你希望發送一些數據到URL(通常URL與CGI[通用網關接口]腳本,或其他WEB應用程序掛接)。
在HTTP中,這個經常使用熟知的POST請求發送。
這個通常在你提交一個HTML表單時由你的瀏覽器來做。
並不是所有的POSTs都來源於表單,你能夠使用POST提交任意的數據到你自己的程序。
一般的HTML表單,data需要編碼成標準形式。然後做為data參數傳到Request對象。
編碼工作使用urllib的函數而非urllib2。
我們新建一個文件urllib2_test03.py來感受一下:
import urllib
import urllib2
url = ”
values = {‘name’ : ‘WHY’,
‘location’ : ‘SDU’,
‘language’ : ‘Python’ }
data = urllib.urlencode(values) # 編碼工作
req = urllib2.Request(url, data) # 發送請求同時傳data表單
response = urllib2.urlopen(req) #接受反饋的信息
the_page = response.read() #讀取反饋的內容
如果沒有傳送data參數,urllib2使用GET方式的請求。
GET和POST請求的不同之處是POST請求通常有”副作用”,
它們會由於某種途徑改變系統狀態(例如提交成堆垃圾到你的門口)。
Data同樣可以通過在Get請求的URL本身上面編碼來傳送。
import urllib2
import urllib
data = {}
data[‘name’] = ‘WHY’
data[‘location’] = ‘SDU’
data[‘language’] = ‘Python’
url_values = urllib.urlencode(data)
print url_values
name=Somebody+Herelanguage=Pythonlocation=Northampton
url = ”
full_url = url + ‘?’ + url_values
data = urllib2.open(full_url)
這樣就實現了Data數據的Get傳送。
2.設置Headers到http請求
有一些站點不喜歡被程序(非人為訪問)訪問,或者發送不同版本的內容到不同的瀏覽器。
默認的urllib2把自己作為“Python-urllib/x.y”(x和y是Python主版本和次版本號,例如Python-urllib/2.7),
這個身份可能會讓站點迷惑,或者乾脆不工作。
瀏覽器確認自己身份是通過User-Agent頭,當你創建了一個請求對象,你可以給他一個包含頭數據的字典。
下面的例子發送跟上面一樣的內容,但把自身模擬成Internet Explorer。
(多謝大家的提醒,現在這個Demo已經不可用了,不過原理還是那樣的)。
import urllib
import urllib2
url = ”
user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’
values = {‘name’ : ‘WHY’,
‘location’ : ‘SDU’,
‘language’ : ‘Python’ }
headers = { ‘User-Agent’ : user_agent }
data = urllib.urlencode(values)
req = urllib2.Request(url, data, headers)
response = urllib2.urlopen(req)
the_page = response.read()
以上就是python利用urllib2通過指定的URL抓取網頁內容的全部內容,非常簡單吧,希望對大家能有所幫助
如何使用python 開發一個api
使用 Python 和 Flask 設計 RESTful API
近些年來 REST (REpresentational State Transfer) 已經變成了 web services 和 web APIs 的標配。
在本文中我將向你展示如何簡單地使用 Python 和 Flask 框架來創建一個 RESTful 的 web service。
什麼是 REST?
六條設計規範定義了一個 REST 系統的特點:
客戶端-服務器: 客戶端和服務器之間隔離,服務器提供服務,客戶端進行消費。
無狀態: 從客戶端到服務器的每個請求都必須包含理解請求所必需的信息。換句話說, 服務器不會存儲客戶端上一次請求的信息用來給下一次使用。
可緩存: 服務器必須明示客戶端請求能否緩存。
分層系統: 客戶端和服務器之間的通信應該以一種標準的方式,就是中間層代替服務器做出響應的時候,客戶端不需要做任何變動。
統一的接口: 服務器和客戶端的通信方法必須是統一的。
按需編碼: 服務器可以提供可執行代碼或腳本,為客戶端在它們的環境中執行。這個約束是唯一一個是可選的。
什麼是一個 RESTful 的 web service?
REST 架構的最初目的是適應萬維網的 HTTP 協議。
RESTful web services 概念的核心就是“資源”。 資源可以用 URI 來表示。客戶端使用 HTTP 協議定義的方法來發送請求到這些 URIs,當然可能會導致這些被訪問的”資源“狀態的改變。
HTTP 標準的方法有如下:
========== ===================== ==================================
HTTP 方法 行為 示例
========== ===================== ==================================
GET 獲取資源的信息
GET 獲取某個特定資源的信息
POST 創建新資源
PUT 更新資源
DELETE 刪除資源
========== ====================== ==================================
REST 設計不需要特定的數據格式。在請求中數據可以以 JSON 形式, 或者有時候作為 url 中查詢參數項。
設計一個簡單的 web service
堅持 REST 的準則設計一個 web service 或者 API 的任務就變成一個標識資源被展示出來以及它們是怎樣受不同的請求方法影響的練習。
比如說,我們要編寫一個待辦事項應用程序而且我們想要為它設計一個 web service。要做的第一件事情就是決定用什麼樣的根 URL 來訪問該服務。例如,我們可以通過這個來訪問:
http://[hostname]/todo/api/v1.0/
在這裡我已經決定在 URL 中包含應用的名稱以及 API 的版本號。在 URL 中包含應用名稱有助於提供一個命名空間以便區分同一系統上的其它服務。在 URL 中包含版本號能夠幫助以後的更新,如果新版本中存在新的和潛在不兼容的功能,可以不影響依賴於較舊的功能的應用程序。
下一步驟就是選擇將由該服務暴露(展示)的資源。這是一個十分簡單地應用,我們只有任務,因此在我們待辦事項中唯一的資源就是任務。
我們的任務資源將要使用 HTTP 方法如下:
========== =============================================== =============================
HTTP 方法 URL 動作
========== =============================================== ==============================
GET http://[hostname]/todo/api/v1.0/tasks 檢索任務列表
GET http://[hostname]/todo/api/v1.0/tasks/[task_id] 檢索某個任務
POST http://[hostname]/todo/api/v1.0/tasks 創建新任務
PUT http://[hostname]/todo/api/v1.0/tasks/[task_id] 更新任務
DELETE http://[hostname]/todo/api/v1.0/tasks/[task_id] 刪除任務
========== ================================================ =============================
我們定義的任務有如下一些屬性:
id: 任務的唯一標識符。數字類型。
title: 簡短的任務描述。字符串類型。
description: 具體的任務描述。文本類型。
done: 任務完成的狀態。布爾值。
目前為止關於我們的 web service 的設計基本完成。剩下的事情就是實現它!
Flask 框架的簡介
如果你讀過 Flask Mega-Tutorial 系列,就會知道 Flask 是一個簡單卻十分強大的 Python web 框架。
在我們深入研究 web services 的細節之前,讓我們回顧一下一個普通的 Flask Web 應用程序的結構。
我會首先假設你知道 Python 在你的平台上工作的基本知識。 我將講解的例子是工作在一個類 Unix 操作系統。簡而言之,這意味着它們能工作在 Linux,Mac OS X 和 Windows(如果你使用Cygwin)。 如果你使用 Windows 上原生的 Python 版本的話,命令會有所不同。
讓我們開始在一個虛擬環境上安裝 Flask。如果你的系統上沒有 virtualenv,你可以從 上下載:
$ mkdir todo-api
$ cd todo-api
$ virtualenv flask
New python executable in flask/bin/python
Installing setuptools……………………….done.
Installing pip……………….done.
$ flask/bin/pip install flask
既然已經安裝了 Flask,現在開始創建一個簡單地網頁應用,我們把它放在一個叫 app.py 的文件中:
#!flask/bin/pythonfrom flask import Flaskapp = Flask(__name__)@app.route(‘/’)def index():
return “Hello, World!”if __name__ == ‘__main__’:
app.run(debug=True)
為了運行這個程序我們必須執行 app.py:
$ chmod a+x app.py
$ ./app.py
* Running on
* Restarting with reloader
現在你可以啟動你的網頁瀏覽器,輸入 看看這個小應用程序的效果。
簡單吧?現在我們將這個應用程序轉換成我們的 RESTful service!
使用 Python 和 Flask 實現 RESTful services
使用 Flask 構建 web services 是十分簡單地,比我在 Mega-Tutorial 中構建的完整的服務端的應用程序要簡單地多。
在 Flask 中有許多擴展來幫助我們構建 RESTful services,但是在我看來這個任務十分簡單,沒有必要使用 Flask 擴展。
我們 web service 的客戶端需要添加、刪除以及修改任務的服務,因此顯然我們需要一種方式來存儲任務。最直接的方式就是建立一個小型的數據庫,但是數據庫並不是本文的主體。學習在 Flask 中使用合適的數據庫,我強烈建議閱讀 Mega-Tutorial。
這裡我們直接把任務列表存儲在內存中,因此這些任務列表只會在 web 服務器運行中工作,在結束的時候就失效。 這種方式只是適用我們自己開發的 web 服務器,不適用於生產環境的 web 服務器, 這種情況一個合適的數據庫的搭建是必須的。
我們現在來實現 web service 的第一個入口:
#!flask/bin/pythonfrom flask import Flask, jsonifyapp = Flask(__name__)tasks = [
{
‘id’: 1,
‘title’: u’Buy groceries’,
‘description’: u’Milk, Cheese, Pizza, Fruit, Tylenol’,
‘done’: False
},
{
‘id’: 2,
‘title’: u’Learn Python’,
‘description’: u’Need to find a good Python tutorial on the web’,
‘done’: False
}]@app.route(‘/todo/api/v1.0/tasks’, methods=[‘GET’])def get_tasks():
return jsonify({‘tasks’: tasks})if __name__ == ‘__main__’:
app.run(debug=True)
正如你所見,沒有多大的變化。我們創建一個任務的內存數據庫,這裡無非就是一個字典和數組。數組中的每一個元素都具有上述定義的任務的屬性。
取代了首頁,我們現在擁有一個 get_tasks 的函數,訪問的 URI 為 /todo/api/v1.0/tasks,並且只允許 GET 的 HTTP 方法。
這個函數的響應不是文本,我們使用 JSON 數據格式來響應,Flask 的 jsonify 函數從我們的數據結構中生成。
使用網頁瀏覽器來測試我們的 web service 不是一個最好的注意,因為網頁瀏覽器上不能輕易地模擬所有的 HTTP 請求的方法。相反,我們會使用 curl。如果你還沒有安裝 curl 的話,請立即安裝它。
通過執行 app.py,啟動 web service。接着打開一個新的控制台窗口,運行以下命令:
$ curl -i
HTTP/1.0 200 OK
Content-Type: application/json
Content-Length: 294
Server: Werkzeug/0.8.3 Python/2.7.3
Date: Mon, 20 May 2013 04:53:53 GMT
{
“tasks”: [
{
“description”: “Milk, Cheese, Pizza, Fruit, Tylenol”,
“done”: false,
“id”: 1,
“title”: “Buy groceries”
},
{
“description”: “Need to find a good Python tutorial on the web”,
“done”: false,
“id”: 2,
“title”: “Learn Python”
}
]
}
我們已經成功地調用我們的 RESTful service 的一個函數!
現在我們開始編寫 GET 方法請求我們的任務資源的第二個版本。這是一個用來返回單獨一個任務的函數:
from flask import abort@app.route(‘/todo/api/v1.0/tasks/int:task_id’, methods=[‘GET’])def get_task(task_id):
task = filter(lambda t: t[‘id’] == task_id, tasks)
if len(task) == 0:
abort(404)
return jsonify({‘task’: task[0]})
第二個函數有些意思。這裡我們得到了 URL 中任務的 id,接着 Flask 把它轉換成 函數中的 task_id 的參數。
我們用這個參數來搜索我們的任務數組。如果我們的數據庫中不存在搜索的 id,我們將會返回一個類似 404 的錯誤,根據 HTTP 規範的意思是 “資源未找到”。
如果我們找到相應的任務,那麼我們只需將它用 jsonify 打包成 JSON 格式並將其發送作為響應,就像我們以前那樣處理整個任務集合。
調用 curl 請求的結果如下:
$ curl -i
HTTP/1.0 200 OK
Content-Type: application/json
Content-Length: 151
Server: Werkzeug/0.8.3 Python/2.7.3
Date: Mon, 20 May 2013 05:21:50 GMT
{
“task”: {
“description”: “Need to find a good Python tutorial on the web”,
“done”: false,
“id”: 2,
“title”: “Learn Python”
}
}
$ curl -i
HTTP/1.0 404 NOT FOUND
Content-Type: text/html
Content-Length: 238
Server: Werkzeug/0.8.3 Python/2.7.3
Date: Mon, 20 May 2013 05:21:52 GMT
!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 3.2 Final//EN”
title404 Not Found/title
h1Not Found/h1
pThe requested URL was not found on the server./ppIf you entered the URL manually please check your spelling and try again./p
當我們請求 id #2 的資源時候,我們獲取到了,但是當我們請求 #3 的時候返回了 404 錯誤。有關錯誤奇怪的是返回的是 HTML 信息而不是 JSON,這是因為 Flask 按照默認方式生成 404 響應。由於這是一個 Web service 客戶端希望我們總是以 JSON 格式回應,所以我們需要改善我們的 404 錯誤處理程序:
from flask import make_response@app.errorhandler(404)def not_found(error):
return make_response(jsonify({‘error’: ‘Not found’}), 404)
我們會得到一個友好的錯誤提示:
$ curl -i
HTTP/1.0 404 NOT FOUND
Content-Type: application/json
Content-Length: 26
Server: Werkzeug/0.8.3 Python/2.7.3
Date: Mon, 20 May 2013 05:36:54 GMT
{
“error”: “Not found”
}
接下來就是 POST 方法,我們用來在我們的任務數據庫中插入一個新的任務:
from flask import request@app.route(‘/todo/api/v1.0/tasks’, methods=[‘POST’])def create_task():
if not request.json or not ‘title’ in request.json:
abort(400)
task = {
‘id’: tasks[-1][‘id’] + 1,
‘title’: request.json[‘title’],
‘description’: request.json.get(‘description’, “”),
‘done’: False
}
tasks.append(task)
return jsonify({‘task’: task}), 201
添加一個新的任務也是相當容易地。只有當請求以 JSON 格式形式,request.json 才會有請求的數據。如果沒有數據,或者存在數據但是缺少 title 項,我們將會返回 400,這是表示請求無效。
接着我們會創建一個新的任務字典,使用最後一個任務的 id + 1 作為該任務的 id。我們允許 description 字段缺失,並且假設 done 字段設置成 False。
我們把新的任務添加到我們的任務數組中,並且把新添加的任務和狀態 201 響應給客戶端。
使用如下的 curl 命令來測試這個新的函數:
$ curl -i -H “Content-Type: application/json” -X POST -d ‘{“title”:”Read a book”}’
HTTP/1.0 201 Created
Content-Type: application/json
Content-Length: 104
Server: Werkzeug/0.8.3 Python/2.7.3
Date: Mon, 20 May 2013 05:56:21 GMT
{
“task”: {
“description”: “”,
“done”: false,
“id”: 3,
“title”: “Read a book”
}
}
注意:如果你在 Windows 上並且運行 Cygwin 版本的 curl,上面的命令不會有任何問題。然而,如果你使用原生的 curl,命令會有些不同:
curl -i -H “Content-Type: application/json” -X POST -d “{“””title”””:”””Read a book”””}”
當然在完成這個請求後,我們可以得到任務的更新列表:
$ curl -i
HTTP/1.0 200 OK
Content-Type: application/json
Content-Length: 423
Server: Werkzeug/0.8.3 Python/2.7.3
Date: Mon, 20 May 2013 05:57:44 GMT
{
“tasks”: [
{
“description”: “Milk, Cheese, Pizza, Fruit, Tylenol”,
“done”: false,
“id”: 1,
“title”: “Buy groceries”
},
{
“description”: “Need to find a good Python tutorial on the web”,
“done”: false,
“id”: 2,
“title”: “Learn Python”
},
{
“description”: “”,
“done”: false,
“id”: 3,
“title”: “Read a book”
}
]
}
剩下的兩個函數如下所示:
@app.route(‘/todo/api/v1.0/tasks/int:task_id’, methods=[‘PUT’])def update_task(task_id):
task = filter(lambda t: t[‘id’] == task_id, tasks)
if len(task) == 0:
abort(404)
if not request.json:
abort(400)
if ‘title’ in request.json and type(request.json[‘title’]) != unicode:
abort(400)
if ‘description’ in request.json and type(request.json[‘description’]) is not unicode:
abort(400)
python requests 的get和post的區別
get是直接請求、打開,post是請求,對方通過後才能打開
最簡單的就是打開登陸網頁:
打開登陸網頁:get
點擊登陸:post
登陸成功:get一張新頁面
登陸失敗:留在原頁面繼續post!
如何使用 Python 得到網頁返回正確的 Json 數據
import json
import requests
def demo():
url = ”
params = {
…
}
r = requests.get(url, params = params)
doc = json.loads(r.text)
print(doc) # 這裡doc 就已經是轉換為python dict 的json數據了
python 新浪微博爬蟲,求助
0x00. 起因
因為參加學校大學生創新競賽,研究有關微博博文表達的情緒,需要大量微博博文,而網上無論是國內的某度、csdn,還是國外谷歌、gayhub、codeproject等都找不到想要的程序,沒辦法只能自己寫一個程序了。
ps.在爬盟找到類似的程序,但是是windows下的,並且閉源,而且最終爬取保存的文件用notepad++打開有很多奇怪的問題,所以放棄了。
0x01. 基礎知識
本程序由Python寫成,所以基本的python知識是必須的。另外,如果你有一定的計算機網絡基礎,在前期準備時會有少走很多彎路。
對於爬蟲,需要明確幾點:
1. 對爬取對象分類,可以分為以下幾種:第一種是不需要登錄的,比如博主以前練手時爬的中國天氣網,這種網頁爬取難度較低,建議爬蟲新手爬這類網頁;第二種是需要登錄的,如豆瓣、新浪微博,這些網頁爬取難度較高;第三種獨立於前兩種,你想要的信息一般是動態刷新的,如AJAX或內嵌資源,這種爬蟲難度最大,博主也沒研究過,在此不細舉(據同學說淘寶的商品評論就屬於這類)。
2. 如果同一個數據源有多種形式(比如電腦版、手機版、客戶端等),優先選取較為“純凈的”展現。比如新浪微博,有網頁版,也有手機版,而且手機版可以用電腦瀏覽器訪問,這時我優先選手機版新浪微博。
3. 爬蟲一般是將網頁下載到本地,再通過某些方式提取出感興趣的信息。也就是說,爬取網頁只完成了一半,你還要將你感興趣的信息從下載下來的html文件中提取出來。這時就需要一些xml的知識了,在這個項目中,博主用的是XPath提取信息,另外可以使用XQuery等等其他技術,詳情請訪問w3cschool。
4. 爬蟲應該盡量模仿人類,現在網站反爬機制已經比較發達,從驗證碼到禁IP,爬蟲技術和反爬技術可謂不斷博弈。
0x02. 開始
決定了爬蟲的目標之後,首先應該訪問目標網頁,明確目標網頁屬於上述幾種爬蟲的哪種,另外,記錄為了得到感興趣的信息你需要進行的步驟,如是否需要登錄,如果需要登錄,是否需要驗證碼;你要進行哪些操作才能獲得希望得到的信息,是否需要提交某些表單;你希望得到的信息所在頁面的url有什麼規律等等。
以下博文以博主項目為例,該項目爬取特定新浪微博用戶從註冊至今的所有微博博文和根據關鍵詞爬取100頁微博博文(大約1000條)。
0x03. 收集必要信息
首先訪問目標網頁,發現需要登錄,進入登錄頁面如下新浪微博手機版登錄頁面
注意url後半段有很多形如”%xx”的轉義字符,本文後面將會講到。
從這個頁面可以看到,登錄新浪微博手機版需要填寫賬號、密碼和驗證碼。
這個驗證碼是近期(本文創作於2016.3.11)才需要提供的,如果不需要提供驗證碼的話,將有兩種方法進行登錄。
第一種是填寫賬號密碼之後執行js模擬點擊“登錄”按鈕,博主之前寫過一個Java爬蟲就是利用這個方法,但是現在找不到工程了,在此不再贅述。
第二種需要一定HTTP基礎,提交包含所需信息的HTTP POST請求。我們需要Wireshark 工具來抓取登錄微博時我們發出和接收的數據包。如下圖我抓取了在登錄時發出和接收的數據包Wireshark抓取結果1
在搜索欄提供搜索條件”http”可得到所有http協議數據包,右側info顯示該數據包的縮略信息。圖中藍色一行是POST請求,並且info中有”login”,可以初步判斷這個請求是登錄時發出的第一個數據包,並且這個180.149.153.4應該是新浪微博手機版登錄認證的服務器IP地址,此時我們並沒有任何的cookie。
在序號為30是數據包中有一個從該IP發出的HTTP數據包,裡面有四個Set-Cookie字段,這些cookie將是我們爬蟲的基礎。
Wireshark抓取結果2
早在新浪微博服務器反爬機制升級之前,登錄是不需要驗證碼的,通過提交POST請求,可以拿到這些cookie,在項目源碼中的TestCookie.py中有示例代碼。
ps.如果沒有wireshark或者不想這麼麻煩的話,可以用瀏覽器的開發者工具,以chrome為例,在登錄前打開開發者工具,轉到Network,登錄,可以看到發出和接收的數據,登錄完成後可以看到cookies,如下圖chrome開發者工具
接下來訪問所需頁面,查看頁面url是否有某種規律。由於本項目目標之一是獲取某用戶的全部微博,所以直接訪問該用戶的微博頁面,以央視新聞 為例。
央視新聞1
圖為央視新聞微博第一頁,觀察該頁面的url可以發現,新浪微博手機版的微博頁面url組成是 “weibo.cn/(displayID)?page=(pagenum)” 。這將成為我們爬蟲拼接url的依據。
接下來查看網頁源碼,找到我們希望得到的信息的位置。打開瀏覽器開發者工具,直接定位某條微博,可以發現它的位置,如下所示。
xpath
觀察html代碼發現,所有的微博都在div標籤里,並且這個標籤里有兩個屬性,其中class屬性為”c”,和一個唯一的id屬性值。得到這個信息有助於將所需信息提取出來。
另外,還有一些需要特別注意的因素
* 微博分為原創微博和轉發微博
* 按照發布時間至當前時間的差距,在頁面上有”MM分鐘前”、”今天HH:MM”、”mm月dd日 HH:MM”、”yyyy-mm-dd HH:MM:SS”等多種顯示時間的方式* 手機版新浪微博一個頁面大約顯示10條微博,所以要注意對總共頁數進行記錄以上幾點都是細節,在爬蟲和提取的時候需要仔細考慮。
0x04. 編碼
1.爬取用戶微博
本項目開發語言是Python 2.7,項目中用了一些第三方庫,第三方庫可以用pip的方法添加。
既然程序自動登錄的想法被驗證碼擋住了,想要訪問特定用戶微博頁面,只能使用者提供cookies了。
首先用到的是Python的request模塊,它提供了帶cookies的url請求。
import request
print request.get(url, cookies=cookies).content使用這段代碼就可以打印帶cookies的url請求頁面結果。
首先取得該用戶微博頁面數,通過檢查網頁源碼,查找到表示頁數的元素,通過XPath等技術提取出頁數。
頁數
項目使用lxml模塊對html進行XPath提取。
首先導入lxml模塊,在項目里只用到了etree,所以from lxml import etree
然後利用下面的方法返回頁數
def getpagenum(self):
url = self.geturl(pagenum=1)
html = requests.get(url, cookies=self.cook).content # Visit the first page to get the page number.
selector = etree.HTML(html)
pagenum = selector.xpath(‘//input[@name=”mp”]/@value’)[0]
return int(pagenum)
接下來就是不斷地拼接url-訪問url-下載網頁。
需要注意的是,由於新浪反爬機制的存在,同一cookies訪問頁面過於“頻繁”的話會進入類似於“冷卻期”,即返回一個無用頁面,通過分析該無用頁面發現,這個頁面在特定的地方會出現特定的信息,通過XPath技術來檢查這個特定地方是否出現了特定信息即可判斷該頁面是否對我們有用。
def ispageneeded(html):
selector = etree.HTML(html)
try:
title = selector.xpath(‘//title’)[0]
except:
return False
return title.text != ‘微博廣場’ and title.text != ‘微博’
如果出現了無用頁面,只需簡單地重新訪問即可,但是通過後期的實驗發現,如果長期處於過頻訪問,返回的頁面將全是無用頁面,程序也將陷入死循環。為了避免程序陷入死循環,博主設置了嘗試次數閾值trycount,超過這個閾值之後方法自動返回。
下面代碼片展示了單線程爬蟲的方法。
def startcrawling(self, startpage=1, trycount=20):
attempt = 0
try:
os.mkdir(sys.path[0] + ‘/Weibo_raw/’ + self.wanted)except Exception, e:
print str(e)
isdone = False
while not isdone and attempt trycount:
try:
pagenum = self.getpagenum()
isdone = True
except Exception, e:
attempt += 1
if attempt == trycount:
return False
i = startpage
while i = pagenum:
attempt = 0
isneeded = False
html = ”
while not isneeded and attempt trycount:
html = self.getpage(self.geturl(i))
isneeded = self.ispageneeded(html)
if not isneeded:
attempt += 1
if attempt == trycount:
return False
self.savehtml(sys.path[0] + ‘/Weibo_raw/’ + self.wanted + ‘/’ + str(i) + ‘.txt’, html)print str(i) + ‘/’ + str(pagenum – 1)
i += 1
return True
考慮到程序的時間效率,在寫好單線程爬蟲之後,博主也寫了多線程爬蟲版本,基本思想是將微博頁數除以線程數,如一個微博用戶有100頁微博,程序開10個線程,那麼每個線程只負責10個頁面的爬取,其他基本思想跟單線程類似,只需仔細處理邊界值即可,在此不再贅述,感興趣的同學可以直接看代碼。另外,由於多線程的效率比較高,並發量特別大,所以服務器很容易就返回無效頁面,此時trycount的設置就顯得更重要了。博主在寫這篇微博的時候,用一個新的cookies,多線程爬取現場測試了一下爬取北京郵電大學的微博,3976條微博全部爬取成功並提取博文,用時僅15s,實際可能跟cookies的新舊程度和網絡環境有關,命令行設置如下,命令行意義在項目網址里有說明python main.py _T_WM=xxx; SUHB=xxx; SUB=xxx; gsid_CTandWM=xxx u bupt m 20 20爬取的工作以上基本介紹結束,接下來就是爬蟲的第二部分,解析了。由於項目中提供了多線程爬取方法,而多線程一般是無序的,但微博博文是依靠時間排序的,所以項目採用了一種折衷的辦法,將下載完成的頁面保存在本地文件系統,每個頁面以其頁號為文件名,待爬取的工作結束後,再遍歷文件夾內所有文件並解析。
通過前面的觀察,我們已經了解到微博博文存在的標籤有什麼特點了,利用XPath技術,將這個頁面里所有有這個特點的標籤全部提取出來已經不是難事了。
在這再次提醒,微博分為轉發微博和原創微博、時間表示方式。另外,由於我們的研究課題僅對微博文本感興趣,所以配圖不考慮。
def startparsing(self, parsingtime=datetime.datetime.now()):
basepath = sys.path[0] + ‘/Weibo_raw/’ + self.uidfor filename in os.listdir(basepath):
if filename.startswith(‘.’):
continue
path = basepath + ‘/’ + filename
f = open(path, ‘r’)
html = f.read()
selector = etree.HTML(html)
weiboitems = selector.xpath(‘//div[@class=”c”][@id]’)for item in weiboitems:
weibo = Weibo()
weibo.id = item.xpath(‘./@id’)[0]
cmt = item.xpath(‘./div/span[@class=”cmt”]’)if len(cmt) != 0:
weibo.isrepost = True
weibo.content = cmt[0].text
else:
weibo.isrepost = False
ctt = item.xpath(‘./div/span[@class=”ctt”]’)[0]
if ctt.text is not None:
weibo.content += ctt.text
for a in ctt.xpath(‘./a’):
if a.text is not None:
weibo.content += a.text
if a.tail is not None:
weibo.content += a.tail
if len(cmt) != 0:
reason = cmt[1].text.split(u’\xa0′)
if len(reason) != 1:
weibo.repostreason = reason[0]
ct = item.xpath(‘./div/span[@class=”ct”]’)[0]
time = ct.text.split(u’\xa0′)[0]
weibo.time = self.gettime(self, time, parsingtime)self.weibos.append(weibo.__dict__)
f.close()
方法傳遞的參數parsingtime的設置初衷是,開發前期爬取和解析可能不是同時進行的(並不是嚴格的“同時”),微博時間顯示是基於訪問時間的,比如爬取時間是10:00,這時爬取到一條微博顯示是5分鐘前發布的,但如果解析時間是10:30,那麼解析時間將錯誤,所以應該講解析時間設置為10:00。到後期爬蟲基本開發完畢,爬取工作和解析工作開始時間差距降低,時間差將是爬取過程時長,基本可以忽略。
解析結果保存在一個列表裡,最後將這個列表以json格式保存到文件系統里,刪除過渡文件夾,完成。
def save(self):
f = open(sys.path[0] + ‘/Weibo_parsed/’ + self.uid + ‘.txt’, ‘w’)jsonstr = json.dumps(self.weibos, indent=4, ensure_ascii=False)f.write(jsonstr)
f.close()
2.爬取關鍵詞
同樣的,收集必要的信息。在微博手機版搜索頁面敲入”python”,觀察url,研究其規律。雖然第一頁並無規律,但是第二頁我們發現了規律,而且這個規律可以返回應用於第一頁第一頁
第二頁
應用後第一頁
觀察url可以發現,對於關鍵詞的搜索,url中的變量只有keyword和page(事實上,hideSearchFrame對我們的搜索結果和爬蟲都沒有影響),所以在代碼中我們就可以對這兩個變量進行控制。
另外,如果關鍵詞是中文,那麼url就需要對中文字符進行轉換,如我們在搜索框敲入”開心”並搜索,發現url如下顯示搜索開心
但複製出來卻為
;keyword=%E5%BC%80%E5%BF%83page=1幸好,python的urllib庫有qoute方法處理中文轉換的功能(如果是英文則不做轉換),所以在拼接url前使用這個方法處理一下參數。
另外,考慮到關鍵詞搜索屬於數據收集階段使用的方法,所以在此只提供單線程下載網頁,如有多線程需要,大家可以按照多線程爬取用戶微博的方法自己改寫。最後,對下載下來的網頁進行提取並保存(我知道這樣的模塊設計有點奇怪,打算重(xin)構(qing)時(hao)時再改,就先這樣吧)。
def keywordcrawling(self, keyword):
realkeyword = urllib.quote(keyword) # Handle the keyword in Chinese.
try:
os.mkdir(sys.path[0] + ‘/keywords’)
except Exception, e:
print str(e)
weibos = []
try:
highpoints = re.compile(u'[\U00010000-\U0010ffff]’) # Handle emoji, but it seems doesn’t work.
except re.error:
highpoints = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]’)pagenum = 0
isneeded = False
while not isneeded:
html = self.getpage(‘;page=1’ % realkeyword)isneeded = self.ispageneeded(html)
if isneeded:
selector = etree.HTML(html)
try:
pagenum = int(selector.xpath(‘//input[@name=”mp”]/@value’)[0])except:
pagenum = 1
for i in range(1, pagenum + 1):
try:
isneeded = False
while not isneeded:
html = self.getpage(‘;page=%s’ % (realkeyword, str(i)))isneeded = self.ispageneeded(html)
selector = etree.HTML(html)
weiboitems = selector.xpath(‘//div[@class=”c”][@id]’)for item in weiboitems:
cmt = item.xpath(‘./div/span[@class=”cmt”]’)if (len(cmt)) == 0:
ctt = item.xpath(‘./div/span[@class=”ctt”]’)[0]
if ctt.text is not None:
text = etree.tostring(ctt, method=’text’, encoding=”unicode”)tail = ctt.tail
if text.endswith(tail):
index = -len(tail)
text = text[1:index]
text = highpoints.sub(u’\u25FD’, text) # Emoji handling, seems doesn’t work.
weibotext = text
weibos.append(weibotext)
print str(i) + ‘/’ + str(pagenum)
except Exception, e:
print str(e)
f = open(sys.path[0] + ‘/keywords/’ + keyword + ‘.txt’, ‘w’)try:
f.write(json.dumps(weibos,indent=4,ensure_ascii=False))except Exception,ex:
print str(ex)
finally:
f.close()
博主之前從未寫過任何爬蟲程序,為了獲取新浪微博博文,博主先後寫了3個不同的爬蟲程序,有Python,有Java,爬蟲不能用了是很正常的,不要氣餒,爬蟲程序和反爬機制一直都在不斷博弈中,道高一尺魔高一丈。
另. 轉載請告知博主,如果覺得博主帥的話就可以不用告知了
原創文章,作者:YBDV,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/137552.html