用python解析html（python求解析解）

本文目錄一覽：

1、python HTML解析之 – lxml
2、Python網頁解析庫：用requests-html爬取網頁
3、python如何解析html中的轉義字符
4、怎麼用python解析html
5、Python html 模塊簡介

python HTML解析之 – lxml

lxml是處理XML和HTML的python語言，解析的時候，自動處理各種編碼問題。而且它天生支持 XPath 1.0、XSLT 1.0、定製元素類。

安裝：

HTML 實例

test, test.html指上述實例

獲取 a 的所有標籤，這種html內容有多種寫法，可以直接得到了4個元素。

按照（2）中的方法，再加上 /@href ，可以直接得到屬性值。

或者得到（2）中的結果，一一輪詢。

更多表達式見 python xpath的學習

參考：

Python網頁解析庫：用requests-html爬取網頁

Python 中可以進行網頁解析的庫有很多，常見的有 BeautifulSoup 和 lxml 等。在網上玩爬蟲的文章通常都是介紹 BeautifulSoup 這個庫，我平常也是常用這個庫，最近用 Xpath 用得比較多，使用 BeautifulSoup 就不大習慣，很久之前就知道 Reitz 大神出了一個叫 Requests-HTML 的庫，一直沒有興趣看，這回可算歹着機會用一下了。

使用 pip install requests-html 安裝，上手和 Reitz 的其他庫一樣，輕鬆簡單：

這個庫是在 requests 庫上實現的，r 得到的結果是 Response 對象下面的一個子類，多個一個 html 的屬性。所以 requests 庫的響應對象可以進行什麼操作，這個 r 也都可以。如果需要解析網頁，直接獲取響應對象的 html 屬性：

不得不膜拜 Reitz 大神太會組裝技術了。實際上 HTMLSession 是繼承自 requests.Session 這個核心類，然後將 requests.Session 類里的 requests 方法改寫，返回自己的一個 HTMLResponse 對象，這個類又是繼承自 requests.Response,只是多加了一個 _from_response 的方法來構造實例：

之後在 HTMLResponse 里定義屬性方法 html，就可以通過 html 屬性訪問了,實現也就是組裝 PyQuery 來干。核心的解析類也大多是使用 PyQuery 和 lxml 來做解析，簡化了名稱，挺討巧的。

元素定位可以選擇兩種方式：

方法名非常簡單，符合 Python 優雅的風格，這裡不妨對這兩種方式簡單的說明：

定位到元素以後勢必要獲取元素裏面的內容和屬性相關數據，獲取文本：

獲取元素的屬性：

還可以通過模式來匹配對應的內容：

這個功能看起來比較雞肋，可以深入研究優化一下，說不定能在 github 上混個提交。

除了一些基礎操作，這個庫還提供了一些人性化的操作。比如一鍵獲取網頁的所有超鏈接，這對於整站爬蟲應該是個福音，URL 管理比較方便：

內容頁面通常都是分頁的，一次抓取不了太多，這個庫可以獲取分頁信息：

結果如下：

通過迭代器實現了智能發現分頁，這個迭代器裏面會用一個叫 _next 的方法，貼一段源碼感受下：

通過查找 a 標籤裏面是否含有指定的文本來判斷是不是有下一頁，通常我們的下一頁都會通過下一頁或者加載更多來引導，他就是利用這個標誌來進行判斷。默認的以列表形式存在全局： [‘next’,’more’,’older’] 。我個人認為這種方式非常不靈活，幾乎沒有擴展性。感興趣的可以往 github 上提交代碼優化。

也許是考慮到了現在 js 的一些異步加載，這個庫支持 js 運行時，官方說明如下：

使用非常簡單，直接調用以下方法：

第一次使用的時候會下載 Chromium，不過國內你懂的，自己想辦法去下吧，就不要等它自己下載了。render 函數可以使用 js 腳本來操作頁面，滾動操作單獨做了參數。這對於上拉加載等新式頁面是非常友好的。

python如何解析html中的轉義字符

用python寫個html的轉義字符轉換的函數，然後調用這個函數進行轉義字符處理即可。

html中的轉義字符並不多。

html轉義字符對照表

html常規轉義字符

怎麼用python解析html

現在用起來比較方便的有兩種：

1. pyquery (類似Jquery語法，對於js熟悉的人，用這個會比較上手)

2. beatifulsoup:這個功能比較強大，用起來也很方便，目前正在整理筆記中，其中一個亮點就是：可以使用正則來解析有規律的html標籤內容。

還有一個主要的問題：爬取網頁的時候，需要使用http代理。因為有的網站有了方爬取的策略，這部分也在整理中，後續會整理發佈。

Python html 模塊簡介

比如：

比如，數學符號，，可以直接獲得：

escape 將特殊字符＆，和替換為HTML安全序列。如果可選的 flags quote 為 True （默認值），則還會翻譯引號字符，包括雙引號（ ” ）和單引號（ ‘ ）字符。

將字符串 s 中的所有命名和數字字符引用 (例如 , , ) 轉換為相應的 Unicode 字符。此函數使用 HTML 5 標準為有效和無效字符引用定義的規則，以及 HTML 5 命名字符引用列表。

這個模塊定義了一個 HTMLParser 類，為 HTML（超文本標記語言）和 XHTML 文本文件解析提供基礎。

class html.parser.HTMLParser(*, convert_charrefs=True) 創建一個能解析無效標記的解析器實例。查找標籤（tags）和其他標記（markup）並調用 handler 函數。

用法：

通過調用 self.handle_starttag 處理開始標籤，或通過調用 self.handle_startendtag 處理結束標籤。標籤之間的數據通過以 data 為參數調用 self.handle_data 從解析器傳遞到派生類（數據可以分成任意塊）。如果 convert_charrefs 為 True ，則將字符引用自動轉換為相應的 Unicode 字符（並且 self.handle_data 不再拆分成塊），否則通過調用帶有字符串的 self.handle_entityref 或 self.handle_charref 來傳遞它們以分別包含命名或數字引用作為參數。如果 convert_charrefs 為 True (默認值)，則所有字符引用( script / style 元素中的除外)都會自動轉換為相應的 Unicode 字符。

一個 HTMLParser 類的實例用來接受 HTML 數據，並在標記開始、標記結束、文本、注釋和其他元素標記出現的時候調用對應的方法。要實現具體的行為，請使用 HTMLParser 的子類並重載其方法。

這個解析器不檢查結束標記是否與開始標記匹配，也不會因外層元素完畢而隱式關閉了的元素引髮結束標記處理。

下面是簡單的 HTML 解析器的一個基本示例，使用 HTMLParser 類，當遇到開始標記、結束標記以及數據的時候將內容打印出來。

輸出：

HTMLParser.reset() 重置實例。丟失所有未處理的數據。在實例化階段被隱式調用。

HTMLParser.feed(data) 填充一些文本到解析器中。如果包含完整的元素，則被處理；如果數據不完整，將被緩衝直到更多的數據被填充，或者 close() 被調用。 data 必須為 str 類型。

HTMLParser.close() 如同後面跟着一個文件結束標記一樣，強制處理所有緩衝數據。這個方法能被派生類重新定義，用於在輸入的末尾定義附加處理，但是重定義的版本應當始終調用基類 HTMLParser 的 close() 方法。

HTMLParser.getpos() 返回當前行號和偏移值。

HTMLParser.get_starttag_text() 返回最近打開的開始標記中的文本。結構化處理時通常應該不需要這個，但在處理「已部署」的 HTML 或是在以最小改變來重新生成輸入時可能會有用處（例如可以保留屬性間的空格等）。

下列方法將在遇到數據或者標記元素的時候被調用。他們需要在子類中重載。基類的實現中沒有任何實際操作（除了 handle_startendtag() ）：

HTMLParser.handle_starttag 這個方法在標籤開始的時候被調用（例如： div id=”main” ）。 tag 參數是小寫的標籤名。 attrs 參數是一個 (name, value) 形式的列表，包含了所有在標記的括號中找到的屬性。 name 轉換為小寫， value 的引號被去除，字符和實體引用都會被替換。比如，對於標籤 a href=”” ，這個方法將以下列形式被調用 handle_starttag(‘a’, [(‘href’, ”)]) 。 html.entities 中的所有實體引用，會被替換為屬性值。

HTMLParser.handle_endtag(tag) 此方法被用來處理元素的結束標記（例如： /div ）。 tag 參數是小寫的標籤名。

HTMLParser.handle_startendtag(tag, attrs) 類似於 handle_starttag() , 只是在解析器遇到 XHTML 樣式的空標記時被調用（ tag … / ）。這個方法能被需要這種特殊詞法信息的子類重載；默認實現僅簡單調用 handle_starttag() 和 handle_endtag() 。

HTMLParser.handle_data(data) 這個方法被用來處理任意數據（例如：文本節點和 script…/script 以及 style…/style 中的內容）。

HTMLParser.handle_entityref(name) 這個方法被用於處理 name; 形式的命名字符引用（例如），其中 name 是通用的實體引用（例如： ‘gt’ ）。如果 convert_charrefs 為 True，該方法永遠不會被調用。

HTMLParser.handle_charref(name) 這個方法被用來處理 NNN; 和 NNN; 形式的十進制和十六進制字符引用。例如，等效的十進制形式為，而十六進制形式為；在這種情況下，方法將收到 ’62’ 或 ‘x3E’ 。如果 convert_charrefs 為 True ，則該方法永遠不會被調用。

HTMLParser.handle_comment(data) 這個方法在遇到注釋的時候被調用（例如：）。例如，這個注釋會用 ‘ comment ‘ 作為參數調用此方法。

Internet Explorer 條件注釋（condcoms）的內容也被發送到這個方法，因此，對於 “，這個方法將接收到 ‘[if IE 9]IE9-specific content![endif]’ 。

HTMLParser.handle_decl(decl) 這個方法用來處理 HTML doctype 申明（例如 !DOCTYPE html ）。 decl 形參為 !… 標記中的所有內容（例如： ‘DOCTYPE html’ ）。

HTMLParser.handle_pi(data) 此方法在遇到處理指令的時候被調用。 data 形參將包含整個處理指令。例如，對於處理指令 ?proc color=’red’ ，這個方法將以 handle_pi(“proc color=’red'”) 形式被調用。它旨在被派生類重載；基類實現中無任何實際操作。

註解： HTMLParser 類使用 SGML 語法規則處理指令。使用 ‘?’ 結尾的 XHTML 處理指令將導致 ‘?’ 包含在 data 中。

HTMLParser.unknown_decl(data) 當解析器讀到無法識別的聲明時，此方法被調用。 data 形參為 ![…] 標記中的所有內容。某些時候對派生類的重載很有用。基類實現中無任何實際操作。

因此，我們可以如此定義：

下面介紹如何解析 HTML 文檔。

解析一個文檔類型聲明：

解析一個具有一些屬性和標題的元素：

script 和 style 元素中的內容原樣返回，無需進一步解析：

解析注釋：

解析命名或數字形式的字符引用，並把他們轉換到正確的字符（注意：這 3 種轉義都是 ” ）：

填充不完整的塊給 feed() 執行， handle_data() 可能會多次調用（除非 convert_charrefs 被設置為 True ）：

解析無效的 HTML (例如：未引用的屬性）也能正常運行：

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/239686.html