python和xml簡介的簡單介紹

本文目錄一覽:

python 解析xml需要什麼模塊

Python的標準庫中,提供了6種可以用於處理XML的包。

(1)xml.dom

xml.dom實現的是W3C制定的DOM API。如果你習慣於使用DOM API或者有人要求這這樣做,可以使用這個包。不過要注意,在這個包中,還提供了幾個不同的模塊,各自的性能有所區別。

DOM解析器在任何處理開始之前,必須把基於XML文件生成的樹狀數據放在內存,所以DOM解析器的內存使用量完全根據輸入資料的大小。

(2)xml.dom.minidom

xml.dom.minidom是DOM API的極簡化實現,比完整版的DOM要簡單的多,而且這個包也小的多。那些不熟悉DOM的朋友,應該考慮使用xml.etree.ElementTree模塊。據lxml的作者評價,這個模塊使用起來並不方便,效率也不高,而且還容易出現問題。

相關推薦:《Python教程》

(3)xml.dom.pulldom

與其他模塊不同,xml.dom.pulldom模塊提供的是一個「pull解析器」,其背後的基本概念指的是從XML流中pull事件,然後進行處理。雖然與SAX一樣採用事件驅動模型(event-driven processing model),但是不同的是,使用pull解析器時,使用者需要明確地從XML流中pull事件,並對這些事件遍歷處理,直到處理完成或者出現錯誤。

pull解析(pull parsing)是近來興起的一種XML處理趨勢。此前諸如SAX和DOM這些流行的XML解析框架,都是push-based,也就是說對解析工作的控制權,掌握在解析器的手中。

(4)xml.sax

xml.sax模塊實現的是SAX API,這個模塊犧牲了便捷性來換取速度和內存佔用。SAX是Simple API for XML的縮寫,它並不是由W3C官方所提出的標準。它是事件驅動的,並不需要一次性讀入整個文檔,而文檔的讀入過程也就是SAX的解析過程。所謂事件驅動,是指一種基於回調(callback)機制的程序運行方法。

(5)xml.parser.expat

xml.parser.expat提供了對C語言編寫的expat解析器的一個直接的、底層API接口。expat接口與SAX類似,也是基於事件回調機制,但是這個接口並不是標準化的,只適用於expat庫。

expat是一個面向流的解析器。您註冊的解析器回調(或handler)功能,然後開始搜索它的文檔。當解析器識別該文件的指定的位置,它會調用該部分相應的處理程序(如果您已經註冊的一個)。該文件被輸送到解析器,會被分割成多個片斷,並分段裝到內存中。因此expat可以解析那些巨大的文件。

(6)xml.etree.ElementTree(以下簡稱ET)

xml.etree.ElementTree模塊提供了一個輕量級、Pythonic的API,同時還有一個高效的C語言實現,即xml.etree.cElementTree。與DOM相比,ET的速度更快,API使用更直接、方便。與SAX相比,ET.iterparse函數同樣提供了按需解析的功能,不會一次性在內存中讀入整個文檔。ET的性能與SAX模塊大致相仿,但是它的API更加高層次,用戶使用起來更加便捷。

建議:在使用Python進行XML解析時,首選使用ET模塊,除非你有其他特別的需求,可能需要另外的模塊來滿足。

用python怎麼操作xml文件內容

一、什麼是xml?

xml即可擴展標記語言,它可以用來標記數據、定義數據類型,是一種允許用戶對自己的標記語言進行定義的源語言。

abc.xml

複製代碼代碼如下:

?xml version=”1.0″ encoding=”utf-8″?

catalog

maxid4/maxid

login username=”pytest” passwd=’123456′

captionPython/caption

item id=”4″

caption測試/caption

/item

/login

item id=”2″

captionZope/caption

/item

/catalog

Ok ,從結構上,它很像我們常見的HTML超文本標記語言。但他們被設計的目的是不同的,超文本標記語言被設計用來顯示數據,其焦點是數據的外觀。它被設計用來傳輸和存儲數據,其焦點是數據的內容。

那麼它有如下特徵:

首先,它是有標籤對組成,aa/aa

標籤可以有屬性:aa id=’123’/aa

標籤對可以嵌入數據:aaabc/aa

標籤可以嵌入子標籤(具有層級關係):

二、獲得標籤屬性

那麼,下面來介紹如何用python來讀取這種類型的文件。

複製代碼代碼如下:

#coding=utf-8

import xml.dom.minidom

#打開xml文檔

dom = xml.dom.minidom.parse(‘abc.xml’)

#得到文檔元素對象

root = dom.documentElement

print root.nodeName

print root.nodeValue

print root.nodeType

print root.ELEMENT_NODE

mxl.dom.minidom 模塊被用來處理xml文件,所以要先引入。

xml.dom.minidom.parse() 用於打開一個xml文件,並將這個文件對象dom變量。

documentElement 用於得到dom對象的文檔元素,並把獲得的對象給root

每一個結點都有它的nodeName,nodeValue,nodeType屬性。

nodeName為結點名字。

nodeValue是結點的值,只對文本結點有效。

nodeType是結點的類型。catalog是ELEMENT_NODE類型

現在有以下幾種:

‘ATTRIBUTE_NODE’

‘CDATA_SECTION_NODE’

‘COMMENT_NODE’

‘DOCUMENT_FRAGMENT_NODE’

‘DOCUMENT_NODE’

‘DOCUMENT_TYPE_NODE’

‘ELEMENT_NODE’

‘ENTITY_NODE’

‘ENTITY_REFERENCE_NODE’

‘NOTATION_NODE’

‘PROCESSING_INSTRUCTION_NODE’

‘TEXT_NODE’

三、獲得子標籤

現在要獲得catalog的子標籤以的標籤name

複製代碼代碼如下:

?xml version=”1.0″ encoding=”utf-8″?

catalog

maxid4/maxid

login username=”pytest” passwd=’123456′

captionPython/caption

item id=”4″

caption測試/caption

/item

/login

item id=”2″

captionZope/caption

/item

/catalog

對於知道元素名字的子元素,可以使用getElementsByTagName方法獲取:

複製代碼代碼如下:

#coding=utf-8

import xml.dom.minidom

#打開xml文檔

dom = xml.dom.minidom.parse(‘abc.xml’)

#得到文檔元素對象

root = dom.documentElement

bb = root.getElementsByTagName(‘maxid’)

b= bb[0]

print b.nodeName

bb = root.getElementsByTagName(‘login’)

b= bb[0]

print b.nodeName

如何區分相同標籤名字的標籤:

複製代碼代碼如下:

?xml version=”1.0″ encoding=”utf-8″?

catalog

maxid4/maxid

login username=”pytest” passwd=’123456′

captionPython/caption

item id=”4″

caption測試/caption

/item

/login

item id=”2″

captionZope/caption

/item

/catalog

caption和item標籤不止一個如何區分?

複製代碼代碼如下:

#coding=utf-8

import xml.dom.minidom

#打開xml文檔

dom = xml.dom.minidom.parse(‘abc.xml’)

#得到文檔元素對象

root = dom.documentElement

bb = root.getElementsByTagName(‘caption’)

b= bb[2]

print b.nodeName

bb = root.getElementsByTagName(‘item’)

b= bb[1]

print b.nodeName

root.getElementsByTagName(‘caption’) 獲得的是標籤為caption 一組標籤,b[0]表示一組標籤中的第一個;b[2] ,表示這一組標籤中的第三個。

四、獲得標籤屬性值

複製代碼代碼如下:

?xml version=”1.0″ encoding=”utf-8″?

catalog

maxid4/maxid

login username=”pytest” passwd=’123456′

captionPython/caption

item id=”4″

caption測試/caption

/item

/login

item id=”2″

captionZope/caption

/item

/catalog

login和item標籤是有屬性的,如何獲得他們的屬性?

複製代碼代碼如下:

#coding=utf-8

import xml.dom.minidom

#打開xml文檔

dom = xml.dom.minidom.parse(‘abc.xml’)

#得到文檔元素對象

root = dom.documentElement

itemlist = root.getElementsByTagName(‘login’)

item = itemlist[0]

un=item.getAttribute(“username”)

print un

pd=item.getAttribute(“passwd”)

print pd

ii = root.getElementsByTagName(‘item’)

i1 = ii[0]

i=i1.getAttribute(“id”)

print i

i2 = ii[1]

i=i2.getAttribute(“id”)

print i

getAttribute方法可以獲得元素的屬性所對應的值。

五、獲得標籤對之間的數據

複製代碼代碼如下:

?xml version=”1.0″ encoding=”utf-8″?

catalog

maxid4/maxid

login username=”pytest” passwd=’123456′

captionPython/caption

item id=”4″

caption測試/caption

/item

/login

item id=”2″

captionZope/caption

/item

/catalog

caption標籤對之間是有數據的,如何獲得這些數據?

獲得標籤對之間的數據有多種方法,

方法一:

複製代碼代碼如下:

#coding=utf-8

import xml.dom.minidom

#打開xml文檔

dom = xml.dom.minidom.parse(‘abc.xml’)

#得到文檔元素對象

root = dom.documentElement

cc=dom.getElementsByTagName(‘caption’)

c1=cc[0]

print c1.firstChild.data

c2=cc[1]

print c2.firstChild.data

c3=cc[2]

print c3.firstChild.data

firstChild 屬性返回被選節點的第一個子節點,.data表示獲取該節點人數據。

方法二:

複製代碼代碼如下:

#coding=utf-8

from xml.etree import ElementTree as ET

per=ET.parse(‘abc.xml’)

p=per.findall(‘./login/item’)

for oneper in p:

for child in oneper.getchildren():

print child.tag,’:’,child.text

p=per.findall(‘./item’)

for oneper in p:

for child in oneper.getchildren():

print child.tag,’:’,child.text

方法二有點複雜,所引用模塊也與前面的不一樣,findall用於指定在哪一級標籤下開始遍歷。

getchildren方法按照文檔順序返回所有子標籤。並輸出標籤名(child.tag)和標籤的數據(child.text)

其實,方法二的作用不在於此,它核心功能是可以遍歷某一級標籤下的所有子標籤。

python讀取xml文件有哪些方法

1、以下幾種方法建議初學者使用:

xml.etree.ElementTree

xml.dom

xml.dom.minidom

xml.dom.pulldom

xml.parsers.expat

其中,第一個模塊更加輕便簡介,對於簡單的xml文檔,推薦使用

下面的方法涉及知識比較多,熟練掌握上面方法後可以了解使用:

2、Dom讀取

3、Dom4j讀取

使用dom4j需要導入相關的jar包

import java.io.File;

import java.util.Iterator;

import java.util.List;

4、JDom讀取

使用jdom需要導入相關的jar包

import java.io.FileInputStream;

import java.io.InputStream;

5、Sax讀取   

6、properties的讀取

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/278300.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-19 13:21
下一篇 2024-12-19 13:21

相關推薦

  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29

發表回復

登錄後才能評論