- 1、python 正则表达式 捕获
- 2、如何用Python爬虫抓取网页内容?
- 3、python如何捕获错误信息
就其本质而言,正则表达式(或
RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过
re
模块实现。使用这个小型语言,你可以为想要匹配的相应字符串集指定规则;该字符串集可能包含英文语句、e-mail地址、TeX命令或任何你想搞定的东西。然後你可以问诸如“这个字符串匹配该模式吗?”或“在这个字符串中是否有部分匹配该模式呢?”。你也可以使用
RE
以各种方式来修改或分割字符串。
正则表达式模式被编译成一系列的字节码,然後由用
C
编写的匹配引擎执行。在高级用法中,也许还要仔细留意引擎是如何执行给定
RE
,如何以特定方式编写
RE
以令生产的字节码运行速度更快。本文并不涉及优化,因为那要求你已充分掌握了匹配引擎的内部机制。
正则表达式语言相对小型和受限(功能有限),因此并非所有字符串处理都能用正则表达式完成。当然也有些任务可以用正则表达式完成,不过最终表达式会变得异常复杂。碰到这些情形时,编写
Python
代码进行处理可能反而更好;尽管
Python
代码比一个精巧的正则表达式要慢些,但它更易理解。
爬虫流程
其实把网络爬虫抽象开来看,它无外乎包含如下几个步骤
模拟请求网页。模拟浏览器,打开目标网站。
获取数据。打开网站之后,就可以自动化的获取我们所需要的网站数据。
保存数据。拿到数据之后,需要持久化到本地文件或者数据库等存储设备中。
那么我们该如何使用 Python 来编写自己的爬虫程序呢,在这里我要重点介绍一个 Python 库:Requests。
Requests 使用
Requests 库是 Python 中发起 HTTP 请求的库,使用非常方便简单。
模拟发送 HTTP 请求
发送 GET 请求
当我们用浏览器打开豆瓣首页时,其实发送的最原始的请求就是 GET 请求
import requests
res = requests.get(”)
print(res)
print(type(res))
Response [200]
class ‘requests.models.Response’
首先我们声明一个字符串,然后构建下表获取字符串中的字符,
然后我们经常会用一个越界的下表进行访问,就会报如下的错误:
相关推荐:《Python教程》
如果我们想捕获这个错误,并且加入我们自己的提示信息的话,可以用try与catch进行,
另外except中也可以精确的指定某一个异常类型,如下图所示,指定了除数为0的异常。
如果想输出异常提示信息的话,直接在except里进行输出即可,
最后提醒一下的是,try与except语句中也可以运用else语句的,
综上所述,python中进行异常的捕获运用try与except语句即可,异常信息的显示也可以自己进行定制。