本文目錄一覽:
python如何讀取網頁中的數據
用Beautiful Soup這類解析模塊:
Beautiful Soup 是用Python寫的一個HTML/XML的解析器,它可以很好的處理不規範標記並生成剖析樹(parse tree);
它提供簡單又常用的導航(navigating),搜索以及修改剖析樹的操作;
用urllib或者urllib2(推薦)將頁面的html代碼下載後,用beautifulsoup解析該html;
然後用beautifulsoup的查找模塊或者正則匹配將你想獲得的內容找出來,就可以進行相關處理了,例如:
from BeautifulSoup import BeautifulSoup
html = ‘htmlheadtitletest/title/headbodyptest body/p/body/html’
soup = BeautifulSoup(html)
soup.contents[0].name
# u’html’
soup.comtents[0].contents[0].name
# u’head’
head = soup.comtents[0].contents[0]
head.parent.name
# u’html’
head.next
# u’titletest/title
如何用python抓取網頁上的數據
使用內置的包來抓取,就是在模仿瀏覽器訪問頁面,再把頁面的數據給解析出來,也可以看做是一次請求。
如何用python抓取這個網頁的內容?
Python實現常規的靜態網頁抓取時,往往是用urllib2來獲取整個HTML頁面,然後從HTML文件中逐字查找對應的關鍵字。如下所示:
複製代碼代碼如下:
import urllib2
url=”網址”
up=urllib2.urlopen(url)#打開目標頁面,存入變量up
cont=up.read()#從up中讀入該HTML文件
key1=’a href=”http’#設置關鍵字1
key2=”target”#設置關鍵字2
pa=cont.find(key1)#找出關鍵字1的位置
pt=cont.find(key2,pa)#找出關鍵字2的位置(從字1後面開始查找)
urlx=cont[pa:pt]#得到關鍵字1與關鍵字2之間的內容(即想要的數據)
print urlx
原創文章,作者:CQSAZ,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/130040.html