fromstring詳解

一、fromstring函數

在Python中，如果想要處理XML或HTML格式的文本，可以使用lxml庫。其中一個最常用的函數就是fromstring。該函數可以將一個XML或HTML字元串解析成樹形結構，便於我們對其中的元素和屬性進行操作。

二、fromstring的作用

fromstring函數最主要的作用是將一個XML或HTML字元串解析成Element對象。利用Element對象，可以非常方便地對其中的元素和屬性進行操作，比如修改、刪除、添加等。對於一個HTML文本，由於它是一種特殊的XML格式，因此我們同樣可以用fromstring函數來解析它。

三、fromstring怎麼用

下面是一個簡單的示例，展示了如何使用fromstring函數將一個XML字元串解析成Element對象：

from lxml import etree

xml_str = "<root><element attribute='value'>text</element></root>"
root_element = etree.fromstring(xml_str)
print(root_element.tag)  # 輸出root

在這個例子中，我們首先定義了一個XML字元串xml_str，它包含一個root元素和一個嵌套的element元素。這個元素有一個名為attribute的屬性，以及一個包含文本的子元素。然後，我們使用fromstring函數將這個字元串解析成一個Element對象root_element。最後，我們列印出元素的名稱（tag），輸出結果是root。

需要注意的是，如果解析的文本中有多個根節點，那麼fromstring函數只會返回第一個根節點。同時，如果文本中包含非法的XML或HTML標記，也可能會導致解析錯誤。

四、選取元素

1. 根據標籤名選取元素

Element對象提供了很多方法來選取其子元素，最常用的一種方式就是根據標籤名選取元素。使用Element對象的findall函數，可以按照路徑查找滿足條件的元素，例如：

from lxml import etree

xml_str = "<root><element attribute='value'>text</element></root>"
root_element = etree.fromstring(xml_str)
element_list = root_element.findall('element')
print(len(element_list))  # 輸出1

從這個例子中可以看出，我們首先使用fromstring函數將一個XML字元串解析成Element對象root_element。然後，我們使用root_element對象的findall函數，根據元素名稱（element）選擇一個或多個子元素。這裡我們選取名為element的子元素，返回的是一個包含該元素的列表。最後，我們輸出這個列表的長度，結果是1。

2. 根據路徑選取元素

由於XML和HTML文檔是一種樹形結構，因此我們還可以根據路徑選取元素。使用Element對象的xpath函數，可以按照路徑的方式查找滿足條件的元素。例如：

from lxml import etree

xml_str = "<root><parent><child attribute='value'>text1</child></parent><parent><child attribute='value'>text2</child></parent></root>"
root_element = etree.fromstring(xml_str)
child_list = root_element.xpath('//child')
print(len(child_list))  # 輸出2

在這個例子中，我們首先定義了一個XML字元串，其中包含兩個根節點、兩個父級元素和兩個命名為child的子元素。然後，我們使用fromstring函數將這個字元串解析成Element對象root_element。接著，我們使用root_element對象的xpath函數，選取命名為child的所有元素。由於這兩個元素路徑相同，因此我們使用了通配符//，表示從任意位置開始查找。最後，我們輸出符合條件的元素個數，結果是2。

3. 選取元素的屬性

Element對象的屬性可以使用字典一樣的方式輕鬆訪問。例如，我們通過屬性名稱訪問元素的屬性：

from lxml import etree

xml_str = "<root><element attribute='value'></element></root>"
root_element = etree.fromstring(xml_str)
element = root_element.find('element')
attr_value = element.get('attribute')
print(attr_value)  # 輸出value

在這個例子中，我們首先使用fromstring函數將一個XML字元串解析成Element對象root_element。然後，我們使用find函數選取一個命名為element的子元素。接下來，我們使用get函數獲取該元素的attribute屬性值，並將其存儲到變數attr_value中。最後，我們輸出這個變數的值，結果是value。

五、總結

在Python中，lxml庫提供了非常方便的從XML和HTML文本中解析出Element對象的方式。其中最常用的函數之一就是fromstring，它可以將一個XML或HTML字元串快速解析成樹形結構，便於我們對其中的元素和屬性進行操作。通過遍歷樹形結構，我們可以輕鬆地選取元素或者屬性，通過修改或者添加的方式來修改文本內容。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/197970.html