python和xml簡介的簡單介紹

本文目錄一覽：

1、python 解析xml需要什麼模塊
2、用python怎麼操作xml文件內容
3、python讀取xml文件有哪些方法

python 解析xml需要什麼模塊

Python的標準庫中，提供了6種可以用於處理XML的包。

（1）xml.dom

xml.dom實現的是W3C制定的DOM API。如果你習慣於使用DOM API或者有人要求這這樣做，可以使用這個包。不過要注意，在這個包中，還提供了幾個不同的模塊，各自的性能有所區別。

DOM解析器在任何處理開始之前，必須把基於XML文件生成的樹狀數據放在內存，所以DOM解析器的內存使用量完全根據輸入資料的大小。

（2）xml.dom.minidom

xml.dom.minidom是DOM API的極簡化實現，比完整版的DOM要簡單的多，而且這個包也小的多。那些不熟悉DOM的朋友，應該考慮使用xml.etree.ElementTree模塊。據lxml的作者評價，這個模塊使用起來並不方便，效率也不高，而且還容易出現問題。

用python怎麼操作xml文件內容

一、什麼是xml？

xml即可擴展標記語言，它可以用來標記數據、定義數據類型，是一種允許用戶對自己的標記語言進行定義的源語言。

abc.xml

複製代碼代碼如下:

?xml version=”1.0″ encoding=”utf-8″?

catalog

maxid4/maxid

captionPython/caption

item id=”4″

caption測試/caption

/item

/login

item id=”2″

captionZope/caption

/item

/catalog

Ok ,從結構上，它很像我們常見的HTML超文本標記語言。但他們被設計的目的是不同的，超文本標記語言被設計用來顯示數據，其焦點是數據的外觀。它被設計用來傳輸和存儲數據，其焦點是數據的內容。

那麼它有如下特徵：

首先，它是有標籤對組成，aa/aa

標籤可以有屬性：aa id=’123’/aa

標籤對可以嵌入數據：aaabc/aa

標籤可以嵌入子標籤（具有層級關係）：

二、獲得標籤屬性

那麼，下面來介紹如何用python來讀取這種類型的文件。

複製代碼代碼如下:

#coding=utf-8

import xml.dom.minidom

#打開xml文檔

dom = xml.dom.minidom.parse(‘abc.xml’)

#得到文檔元素對象

root = dom.documentElement

print root.nodeName

print root.nodeValue

print root.nodeType

print root.ELEMENT_NODE

mxl.dom.minidom 模塊被用來處理xml文件，所以要先引入。

xml.dom.minidom.parse() 用於打開一個xml文件，並將這個文件對象dom變量。

documentElement 用於得到dom對象的文檔元素，並把獲得的對象給root

每一個結點都有它的nodeName，nodeValue，nodeType屬性。

nodeName為結點名字。

nodeValue是結點的值，只對文本結點有效。

nodeType是結點的類型。catalog是ELEMENT_NODE類型

現在有以下幾種：

‘ATTRIBUTE_NODE’

‘CDATA_SECTION_NODE’

‘COMMENT_NODE’

‘DOCUMENT_FRAGMENT_NODE’

‘DOCUMENT_NODE’

‘DOCUMENT_TYPE_NODE’

‘ELEMENT_NODE’

‘ENTITY_NODE’

‘ENTITY_REFERENCE_NODE’

‘NOTATION_NODE’

‘PROCESSING_INSTRUCTION_NODE’

‘TEXT_NODE’

三、獲得子標籤

現在要獲得catalog的子標籤以的標籤name

複製代碼代碼如下:

?xml version=”1.0″ encoding=”utf-8″?

catalog

maxid4/maxid

captionPython/caption

item id=”4″

caption測試/caption

/item

/login

item id=”2″

captionZope/caption

/item

/catalog

對於知道元素名字的子元素，可以使用getElementsByTagName方法獲取：

複製代碼代碼如下:

#coding=utf-8

import xml.dom.minidom

#打開xml文檔

dom = xml.dom.minidom.parse(‘abc.xml’)

#得到文檔元素對象

root = dom.documentElement

bb = root.getElementsByTagName(‘maxid’)

b= bb[0]

print b.nodeName

bb = root.getElementsByTagName(‘login’)

b= bb[0]

print b.nodeName

如何區分相同標籤名字的標籤：

複製代碼代碼如下:

?xml version=”1.0″ encoding=”utf-8″?

catalog

maxid4/maxid

captionPython/caption

item id=”4″

caption測試/caption

/item

/login

item id=”2″

captionZope/caption

/item

/catalog

caption和item標籤不止一個如何區分？

複製代碼代碼如下:

#coding=utf-8

import xml.dom.minidom

#打開xml文檔

dom = xml.dom.minidom.parse(‘abc.xml’)

#得到文檔元素對象

root = dom.documentElement

bb = root.getElementsByTagName(‘caption’)

b= bb[2]

print b.nodeName

bb = root.getElementsByTagName(‘item’)

b= bb[1]

print b.nodeName

root.getElementsByTagName(‘caption’) 獲得的是標籤為caption 一組標籤，b[0]表示一組標籤中的第一個；b[2] ，表示這一組標籤中的第三個。

四、獲得標籤屬性值

複製代碼代碼如下:

?xml version=”1.0″ encoding=”utf-8″?

catalog

maxid4/maxid

captionPython/caption

item id=”4″

caption測試/caption

/item

/login

item id=”2″

captionZope/caption

/item

/catalog

login和item標籤是有屬性的，如何獲得他們的屬性？

複製代碼代碼如下:

#coding=utf-8

import xml.dom.minidom

#打開xml文檔

dom = xml.dom.minidom.parse(‘abc.xml’)

#得到文檔元素對象

root = dom.documentElement

itemlist = root.getElementsByTagName(‘login’)

item = itemlist[0]

un=item.getAttribute(“username”)

print un

pd=item.getAttribute(“passwd”)

print pd

ii = root.getElementsByTagName(‘item’)

i1 = ii[0]

i=i1.getAttribute(“id”)

print i

i2 = ii[1]

i=i2.getAttribute(“id”)

print i

getAttribute方法可以獲得元素的屬性所對應的值。

五、獲得標籤對之間的數據

複製代碼代碼如下:

?xml version=”1.0″ encoding=”utf-8″?

catalog

maxid4/maxid

captionPython/caption

item id=”4″

caption測試/caption

/item

/login

item id=”2″

captionZope/caption

/item

/catalog

caption標籤對之間是有數據的，如何獲得這些數據？

獲得標籤對之間的數據有多種方法，

方法一：

複製代碼代碼如下:

#coding=utf-8

import xml.dom.minidom

#打開xml文檔

dom = xml.dom.minidom.parse(‘abc.xml’)

#得到文檔元素對象

root = dom.documentElement

cc=dom.getElementsByTagName(‘caption’)

c1=cc[0]

print c1.firstChild.data

c2=cc[1]

print c2.firstChild.data

c3=cc[2]

print c3.firstChild.data

firstChild 屬性返回被選節點的第一個子節點，.data表示獲取該節點人數據。

方法二：

複製代碼代碼如下:

#coding=utf-8

from xml.etree import ElementTree as ET

per=ET.parse(‘abc.xml’)

p=per.findall(‘./login/item’)

for oneper in p:

for child in oneper.getchildren():

print child.tag,’:’,child.text

p=per.findall(‘./item’)

for oneper in p:

for child in oneper.getchildren():

print child.tag,’:’,child.text

方法二有點複雜，所引用模塊也與前面的不一樣，findall用於指定在哪一級標籤下開始遍歷。

getchildren方法按照文檔順序返回所有子標籤。並輸出標籤名（child.tag）和標籤的數據（child.text）

其實，方法二的作用不在於此，它核心功能是可以遍歷某一級標籤下的所有子標籤。

python讀取xml文件有哪些方法

1、以下幾種方法建議初學者使用：

xml.etree.ElementTree

xml.dom

xml.dom.minidom

xml.dom.pulldom

xml.parsers.expat

其中，第一個模塊更加輕便簡介，對於簡單的xml文檔，推薦使用

下面的方法涉及知識比較多，熟練掌握上面方法後可以了解使用：

2、Dom讀取

3、Dom4j讀取

使用dom4j需要導入相關的jar包

import java.io.File;

import java.util.Iterator;

import java.util.List;

4、JDom讀取

使用jdom需要導入相關的jar包

import java.io.FileInputStream;

import java.io.InputStream;

5、Sax讀取

6、properties的讀取

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/278300.html

python和xml簡介的簡單介紹

本文目錄一覽：

python 解析xml需要什麼模塊

用python怎麼操作xml文件內容

python讀取xml文件有哪些方法

相關推薦

發表回復