如何捕獲python（如何捕獲5隻斯卡班傑拉）

就其本質而言，正則表達式（或

RE）是一種小型的、高度專業化的編程語言，（在Python中）它內嵌在Python中，並通過

模塊實現。使用這個小型語言，你可以為想要匹配的相應字符串集指定規則；該字符串集可能包含英文語句、e-mail地址、TeX命令或任何你想搞定的東西。然後你可以問諸如「這個字符串匹配該模式嗎？」或「在這個字符串中是否有部分匹配該模式呢？」。你也可以使用

以各種方式來修改或分割字符串。

正則表達式模式被編譯成一系列的位元組碼，然後由用

編寫的匹配引擎執行。在高級用法中，也許還要仔細留意引擎是如何執行給定

，如何以特定方式編寫

以令生產的位元組碼運行速度更快。本文並不涉及優化，因為那要求你已充分掌握了匹配引擎的內部機制。

正則表達式語言相對小型和受限（功能有限），因此並非所有字符串處理都能用正則表達式完成。當然也有些任務可以用正則表達式完成，不過最終表達式會變得異常複雜。碰到這些情形時，編寫

Python

代碼進行處理可能反而更好；儘管

Python

代碼比一個精巧的正則表達式要慢些，但它更易理解。

爬蟲流程

其實把網絡爬蟲抽象開來看，它無外乎包含如下幾個步驟

模擬請求網頁。模擬瀏覽器，打開目標網站。

獲取數據。打開網站之後，就可以自動化的獲取我們所需要的網站數據。

保存數據。拿到數據之後，需要持久化到本地文件或者數據庫等存儲設備中。

那麼我們該如何使用 Python 來編寫自己的爬蟲程序呢，在這裡我要重點介紹一個 Python 庫：Requests。

Requests 使用

Requests 庫是 Python 中發起 HTTP 請求的庫，使用非常方便簡單。

模擬發送 HTTP 請求

發送 GET 請求

當我們用瀏覽器打開豆瓣首頁時，其實發送的最原始的請求就是 GET 請求

import requests

res = requests.get(”)

print(res)

print(type(res))

Response [200]

class ‘requests.models.Response’

首先我們聲明一個字符串，然後構建下表獲取字符串中的字符，

然後我們經常會用一個越界的下表進行訪問，就會報如下的錯誤：