- 1、python 正則表達式 捕獲
- 2、如何用Python爬蟲抓取網頁內容?
- 3、python如何捕獲錯誤信息
就其本質而言,正則表達式(或
RE)是一種小型的、高度專業化的編程語言,(在Python中)它內嵌在Python中,並通過
re
模塊實現。使用這個小型語言,你可以為想要匹配的相應字符串集指定規則;該字符串集可能包含英文語句、e-mail地址、TeX命令或任何你想搞定的東西。然後你可以問諸如「這個字符串匹配該模式嗎?」或「在這個字符串中是否有部分匹配該模式呢?」。你也可以使用
RE
以各種方式來修改或分割字符串。
正則表達式模式被編譯成一系列的位元組碼,然後由用
C
編寫的匹配引擎執行。在高級用法中,也許還要仔細留意引擎是如何執行給定
RE
,如何以特定方式編寫
RE
以令生產的位元組碼運行速度更快。本文並不涉及優化,因為那要求你已充分掌握了匹配引擎的內部機制。
正則表達式語言相對小型和受限(功能有限),因此並非所有字符串處理都能用正則表達式完成。當然也有些任務可以用正則表達式完成,不過最終表達式會變得異常複雜。碰到這些情形時,編寫
Python
代碼進行處理可能反而更好;儘管
Python
代碼比一個精巧的正則表達式要慢些,但它更易理解。
爬蟲流程
其實把網絡爬蟲抽象開來看,它無外乎包含如下幾個步驟
模擬請求網頁。模擬瀏覽器,打開目標網站。
獲取數據。打開網站之後,就可以自動化的獲取我們所需要的網站數據。
保存數據。拿到數據之後,需要持久化到本地文件或者數據庫等存儲設備中。
那麼我們該如何使用 Python 來編寫自己的爬蟲程序呢,在這裡我要重點介紹一個 Python 庫:Requests。
Requests 使用
Requests 庫是 Python 中發起 HTTP 請求的庫,使用非常方便簡單。
模擬發送 HTTP 請求
發送 GET 請求
當我們用瀏覽器打開豆瓣首頁時,其實發送的最原始的請求就是 GET 請求
import requests
res = requests.get(”)
print(res)
print(type(res))
Response [200]
class ‘requests.models.Response’
首先我們聲明一個字符串,然後構建下表獲取字符串中的字符,
然後我們經常會用一個越界的下表進行訪問,就會報如下的錯誤:
相關推薦:《Python教程》
如果我們想捕獲這個錯誤,並且加入我們自己的提示信息的話,可以用try與catch進行,
另外except中也可以精確的指定某一個異常類型,如下圖所示,指定了除數為0的異常。
如果想輸出異常提示信息的話,直接在except里進行輸出即可,
最後提醒一下的是,try與except語句中也可以運用else語句的,
綜上所述,python中進行異常的捕獲運用try與except語句即可,異常信息的顯示也可以自己進行定製。
原創文章,作者:簡單一點,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/126559.html
微信掃一掃
支付寶掃一掃