本文目錄一覽:
python怎樣將網頁內容解析成DOM對象
可以使用Python自帶的HTMLParser模塊解析HTML文檔:
HTMLParser的核心模塊是org.htmlparser.Parser類,這個類實際完成了對於HTML頁面的分析工作。這個類有下面幾個構造函數:
public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一個靜態類public static Parser createParser (String html, String charset);
python 生成dom實力問題
一般來說無法正常生成dom都應該是XML文件本身不符合規範的問題。
也許是編碼,也許是其他原因。
1.可以試着用IE打開d:\\b.xml文件,看是否能夠解析成正常的XML文件。
2.其次可以在網上找些標準的XML文件替換下d:\\b.xml,看dom能否被生成。
(1)如果可以,比較兩個文件的差別就應該知道是什麼問題了
(2)如果也不行的話,那就只可能是你程序其他地方出錯了。(我認為程序其他地方出錯可能性較小。
自己也是一知半解,希望能夠起到點作用。
python DOM有什麼用
DOM介紹
(1)什麼是DOM
·DOM:文檔對象模型。DOM 為文檔提供了結構化表示,並定義了如何通過腳本來訪問文檔結構。目的其實就是為了能讓js操作html元素而制定的一個規範。
·DOM就是由節點組成的。
相關推薦:《Python教程》
(2)解析過程
·HTML加載完畢,渲染引擎會在內存中把HTML文檔,生成一個DOM樹,getElementById是獲取內中DOM上的元素節點。然後操作的時候修改的是該元素的屬性。
·DOM樹(一切都是節點)
DOM的數據結構如下:
上圖可知,在HTML當中,一切都是節點:(非常重要)
·元素節點:HMTL標籤。
·文本節點:標籤中的文字(比如標籤之間的空格、換行)
·屬性節點::標籤的屬性。
整個html文檔就是一個文檔節點。所有的節點都是Object。
(3)DOM可以做什麼
·找對象(元素節點)
·設置元素的屬性值
·設置元素的樣式
·動態創建和刪除元素
·事件的觸發響應:事件源、事件、事件的驅動程序
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/192691.html