本文目錄一覽:
如何用python把網頁上的文本內容保存下來
1、了解Python如何獲取網頁內容。
2、導入 urllib.request模塊。
3、使用urllib.request.urlopen( )獲取對象。
4、urllib.request.urlopen()獲取的是一個網頁的http.client.HTTPResponse對象。
5、若要打印http.client.HTTPResponse對象的內容,可以繼續使用read()方法。
如何利用python爬取網頁內容
利用python爬取網頁內容需要用scrapy(爬蟲框架),但是很簡單,就三步
定義item類
開發spider類
開發pipeline
想學習更深的爬蟲,可以用《瘋狂python講義》
如何在網頁中運行簡單的python代碼
如下的方法請參考:
1 、創建一個django項目使用django-admin.py startproject MyDjangoSite 參考這裡
2、建立視圖
from django.http import HttpResponsedef hello(request): return HttpResponse(“我的第一個簡單的python django項目。”)
3、修改urls.py
我們為urlpatterns加上一行: (r『^hello/$’, hello), 這行被稱作URLpattern,它是一個Python的元組。元組中第一個元素是模式匹配字符串(正則表達式);第二個元素是那個模式將使用的視圖函數。正則表達式字符串的開頭字母「r」。 它告訴Python這是個原始字符串,不需要處理裏面的反斜杠(轉義字符)。一般在使用正則前加入”r”是一個好的習慣
4、運行python manage.py runserver
怎樣用python爬取網頁
# coding=utf-8
import urllib
import re
# 百度貼吧網址:
# 根據URL獲取網頁HTML內容
def getHtmlContent(url):
page = urllib.urlopen(url)
return page.read()
# 從HTML中解析出所有jpg的圖片的URL
# 從HTML中jpg格式為img … src = “xxx.jpg” width=”’
def getJPGs(html):
# 解析jpg圖片URL的正則表達式
jpgReg = re.compile(r’img.+?src=”(.+?\.jpg)”‘)
# 解析出jpg的URL列表
jpgs = re.findall(jpgReg, html)
return jpgs
# 用圖片url下載圖片 並保存成制定文件名
def downloadJPG(imgUrl, fileName):
urllib.urlretrieve(imgUrl, fileName)
# 批量下載圖片,默認保存到當前目錄下
def batchDownloadJPGs(imgUrls, path=’../’): # path=’./’
# 給圖片重命名
count = 1
for url in imgUrls:
downloadJPG(url, ”.join([path, ‘{0}.jpg’.format(count)]))
print “下載圖片第:”, count, “張”
count += 1
# 封裝:從百度貼吧網頁下載圖片
def download(url):
html = getHtmlContent(url)
jpgs = getJPGs(html)
batchDownloadJPGs(jpgs)
def main():
url = “”
download(url)
if __name__ == ‘__main__’:
main()
原創文章,作者:RCZQJ,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/313591.html