python中的迭代工具包,python中的迭代器和生成器

本文目錄一覽:

如何更好地理解Python迭代器和生成器

在Python這門語言中,生成器毫無疑問是最有用的特性之一。與此同時,也是使用的最不廣泛的Python特性之一。究其原因,主要是因為,在其他主流語言裡面沒有生成器的概念。正是由於生成器是一個“新”的東西,所以,它一方面沒有引起廣大工程師的重視,另一方面,也增加了工程師的學習成本,最終導致大家錯過了Python中如此有用的一個特性。

我的這篇文章,希望通過簡單易懂的方式,深入淺出地介紹Python的生成器,以改變“如此有用的特性卻使用極不廣泛”的現象。本文的組織如下:在第1章,我們簡單地介紹了Python中的迭代器協議;在本文第2章,將會詳細介紹生成器的概念和語法;在第3章,將會給出一個有用的例子,說明使用生成器的好處;在本文最後,簡單的討論了使用生成器的注意事項。

1. 迭代器協議

由於生成器自動實現了迭代器協議,而迭代器協議對很多人來說,也是一個較為抽象的概念。所以,為了更好的理解生成器,我們需要簡單的回顧一下迭代器協議的概念。

迭代器協議是指:對象需要提供next方法,它要麼返回迭代中的下一項,要麼就引起一個StopIteration異常,以終止迭代

可迭代對象就是:實現了迭代器協議的對象

協議是一種約定,可迭代對象實現迭代器協議,Python的內置工具(如for循環,sum,min,max函數等)使用迭代器協議訪問對象。

舉個例子:在所有語言中,我們都可以使用for循環來遍曆數組,Python的list底層實現是一個數組,所以,我們可以使用for循環來遍歷list。如下所示:

for n in [1, 2, 3, 4]:

… print n

但是,對Python稍微熟悉一點的朋友應該知道,Python的for循環不但可以用來遍歷list,還可以用來遍歷文件對象,如下所示:

with open(‘/etc/passwd’) as f: # 文件對象提供迭代器協議

… for line in f: # for循環使用迭代器協議訪問文件

… print line

為什麼在Python中,文件還可以使用for循環進行遍歷呢?這是因為,在Python中,文件對象實現了迭代器協議,for循環並不知道它遍歷的是一個文件對象,它只管使用迭代器協議訪問對象即可。正是由於Python的文件對象實現了迭代器協議,我們才得以使用如此方便的方式訪問文件,如下所示:

f = open(‘/etc/passwd’)

dir(f)

[‘__class__’, ‘__enter__’, ‘__exit__’, ‘__iter__’, ‘__new__’, ‘writelines’, ‘…’

2. 生成器

Python使用生成器對延遲操作提供了支持。所謂延遲操作,是指在需要的時候才產生結果,而不是立即產生結果。這也是生成器的主要好處。

Python有兩種不同的方式提供生成器:

生成器函數:常規函數定義,但是,使用yield語句而不是return語句返回結果。yield語句一次返回一個結果,在每個結果中間,掛起函數的狀態,以便下次重它離開的地方繼續執行

生成器表達式:類似於列表推導,但是,生成器返回按需產生結果的一個對象,而不是一次構建一個結果列表

2.1 生成器函數

我們來看一個例子,使用生成器返回自然數的平方(注意返回的是多個值):

def gensquares(N):

for i in range(N):

yield i ** 2

for item in gensquares(5):

print item,

使用普通函數:

def gensquares(N):

res = []

for i in range(N):

res.append(i*i)

return res

for item in gensquares(5):

print item,

可以看到,使用生成器函數代碼量更少。

2.2 生成器表達式

使用列表推導,將會一次產生所有結果:

squares = [x**2 for x in range(5)]

squares

[0, 1, 4, 9, 16]

將列表推導的中括號,替換成圓括號,就是一個生成器表達式:

squares = (x**2 for x in range(5))

squares

generator object at 0x00B2EC88

next(squares)

next(squares)

1

next(squares)

4

list(squares)

[9, 16]

Python不但使用迭代器協議,讓for循環變得更加通用。大部分內置函數,也是使用迭代器協議訪問對象的。例如, sum函數是Python的內置函數,該函數使用迭代器協議訪問對象,而生成器實現了迭代器協議,所以,我們可以直接這樣計算一系列值的和:

sum(x ** 2 for x in xrange(4))

而不用多此一舉的先構造一個列表:

sum([x ** 2 for x in xrange(4)])

2.3 再看生成器

前面已經對生成器有了感性的認識,我們以生成器函數為例,再來深入探討一下Python的生成器:

語法上和函數類似:生成器函數和常規函數幾乎是一樣的。它們都是使用def語句進行定義,差別在於,生成器使用yield語句返回一個值,而常規函數使用return語句返回一個值

自動實現迭代器協議:對於生成器,Python會自動實現迭代器協議,以便應用到迭代背景中(如for循環,sum函數)。由於生成器自動實現了迭代器協議,所以,我們可以調用它的next方法,並且,在沒有值可以返回的時候,生成器自動產生StopIteration異常

狀態掛起:生成器使用yield語句返回一個值。yield語句掛起該生成器函數的狀態,保留足夠的信息,以便之後從它離開的地方繼續執行

3. 示例

我們再來看兩個生成器的例子,以便大家更好的理解生成器的作用。

首先,生成器的好處是延遲計算,一次返回一個結果。也就是說,它不會一次生成所有的結果,這對於大數據量處理,將會非常有用。

大家可以在自己電腦上試試下面兩個表達式,並且觀察內存佔用情況。對於前一個表達式,我在自己的電腦上進行測試,還沒有看到最終結果電腦就已經卡死,對於後一個表達式,幾乎沒有什麼內存佔用。

sum([i for i in xrange(10000000000)])

sum(i for i in xrange(10000000000))

除了延遲計算,生成器還能有效提高代碼可讀性。例如,現在有一個需求,求一段文字中,每個單詞出現的位置。

不使用生成器的情況:

def index_words(text):

result = []

if text:

result.append(0)

for index, letter in enumerate(text, 1):

if letter == ‘ ‘:

result.append(index)

return result

使用生成器的情況:

def index_words(text):

if text:

yield 0

for index, letter in enumerate(text, 1):

if letter == ‘ ‘:

yield index

這裡,至少有兩個充分的理由說明 ,使用生成器比不使用生成器代碼更加清晰:

使用生成器以後,代碼行數更少。大家要記住,如果想把代碼寫的Pythonic,在保證代碼可讀性的前提下,代碼行數越少越好

不使用生成器的時候,對於每次結果,我們首先看到的是result.append(index),其次,才是index。也就是說,我們每次看到的是一個列表的append操作,只是append的是我們想要的結果。使用生成器的時候,直接yield index,少了列表append操作的干擾,我們一眼就能夠看出,代碼是要返回index。

這個例子充分說明了,合理使用生成器,能夠有效提高代碼可讀性。只要大家完全接受了生成器的概念,理解了yield語句和return語句一樣,也是返回一個值。那麼,就能夠理解為什麼使用生成器比不使用生成器要好,能夠理解使用生成器真的可以讓代碼變得清晰易懂。

4. 使用生成器的注意事項

相信通過這篇文章,大家已經能夠理解生成器的作用和好處。但是,還沒有結束,使用生成器,也有一點注意事項。

我們直接來看例子,假設文件中保存了每個省份的人口總數,現在,需要求每個省份的人口佔全國總人口的比例。顯然,我們需要先求出全國的總人口,然後在遍歷每個省份的人口,用每個省的人口數除以總人口數,就得到了每個省份的人口佔全國人口的比例。

如下所示:

def get_province_population(filename):

with open(filename) as f:

for line in f:

yield int(line)

gen = get_province_population(‘data.txt’)

all_population = sum(gen)

#print all_population

for population in gen:

print population / all_population

執行上面這段代碼,將不會有任何輸出,這是因為,生成器只能遍歷一次。在我們執行sum語句的時候,就遍歷了我們的生成器,當我們再次遍歷我們的生成器的時候,將不會有任何記錄。所以,上面的代碼不會有任何輸出。

因此,生成器的唯一注意事項就是:生成器只能遍歷一次。

5. 總結

本文深入淺出地介紹了Python中,一個容易被大家忽略的重要特性,即Python的生成器。為了講解生成器,本文先介紹了迭代器協議,然後介紹了生成器函數和生成器表達式,並通過示例演示了生成器的優點和注意事項。在實際工作中,充分利用Python生成器,不但能夠減少內存使用,還能夠提高代碼可讀性。掌握生成器也是Python高手的標配。希望本文能夠幫助大家理解Python的生成器。

Python中的“迭代”詳解

迭代器模式:一種惰性獲取數據項的方式,即按需一次獲取一個數據項。

所有序列都是可以迭代的。我們接下來要實現一個 Sentence(句子)類,我們向這個類的構造方法傳入包含一些文本的字符串,然後可以逐個單詞迭代。

接下來測試 Sentence 實例能否迭代

序列可以迭代的原因:

iter()

解釋器需要迭代對象 x 時,會自動調用iter(x)。

內置的 iter 函數有以下作用:

由於序列都實現了 __getitem__ 方法,所以都可以迭代。

可迭代對象:使用內置函數 iter() 可以獲取迭代器的對象。

與迭代器的關係:Python 從可迭代對象中獲取迭代器。

下面用for循環迭代一個字符串,這裡字符串 ‘abc’ 是可迭代的對象,用 for 循環迭代時是有生成器,只是 Python 隱藏了。

如果沒有 for 語句,使用 while 循環模擬,要寫成下面這樣:

Python 內部會處理 for 循環和其他迭代上下文(如列表推導,元組拆包等等)中的 StopIteration 異常。

標準的迭代器接口有兩個方法:

__next__ :返回下一個可用的元素,如果沒有元素了,拋出 StopIteration 異常。

__iter__ :返回 self,以便在需要使用可迭代對象的地方使用迭代器,如 for 循環中。

迭代器:實現了無參數的 __next__ 方法,返回序列中的下一個元素;如果沒有元素了,那麼拋出 StopIteration 異常。Python 中的迭代器還實現了 __iter__ 方法,因此迭代器也可以迭代。

接下來使用迭代器模式實現 Sentence 類:

注意, 不要 在 Sentence 類中實現 __next__ 方法,讓 Sentence 實例既是可迭代對象,也是自身的迭代器。

為了“支持多種遍歷”,必須能從同一個可迭代的實例中獲取多個獨立的迭代器,而且各個迭代器要能維護自身的內部狀態,因此這一模式正確的實現方式是,每次調用 iter(my_iterable) 都新建一個獨立的迭代器。

所以總結下來就是:

實現相同功能,但卻符合 Python 習慣的方式是,用生成器函數代替 SentenceIteror 類。

只要 Python 函數的定義體中有 yield 關鍵字,該函數就是生成器函數。調用生成器函數,就會返回一個生成器對象。

生成器函數會創建一個生成器對象,包裝生成器函數的定義體,把生成器傳給 next(…) 函數時,生成器函數會向前,執行函數定義體中的下一個 yield 語句,返回產出的值,並在函數定義體的當前位置暫停,。最終,函數的定義體返回時,外層的生成器對象會拋出 StopIteration 異常,這一點與迭代器協議一致。

如今這一版 Sentence 類相較之前簡短多了,但是還不夠慵懶。 惰性 ,是如今人們認為最好的特質。惰性實現是指儘可能延後生成值,這樣做能節省內存,或許還能避免做無用的處理。

目前實現的幾版 Sentence 類都不具有惰性,因為 __init__ 方法急迫的構建好了文本中的單詞列表,然後將其綁定到 self.words 屬性上。這樣就得處理整個文本,列表使用的內存量可能與文本本身一樣多(或許更多,取決於文本中有多少非單詞字符)。

re.finditer 函數是 re.findall 函數的惰性版本,返回的是一個生成器,按需生成 re.MatchObject 實例。我們可以使用這個函數來讓 Sentence 類變得懶惰,即只在需要時才生成下一個單詞。

標準庫提供了很多生成器函數,有用於逐行迭代純文本文件的對象,還有出色的 os.walk 函數等等。本節專註於通用的函數:參數為任意的可迭代對象,返回值是生成器,用於生成選中的、計算出的和重新排列的元素。

第一組是用於 過濾 的生成器函數:從輸入的可迭代對象中產出元素的子集,而且不修改元素本身。這種函數大多數都接受一個斷言參數(predicate),這個參數是個 布爾函數 ,有一個參數,會應用到輸入中的每個元素上,用於判斷元素是否包含在輸出中。

以下為這些函數的演示:

第二組是用於映射的生成器函數:在輸入的單個/多個可迭代對象中的各個元素上做計算,然後返回結果。

以下為這些函數的用法:

第三組是用於合併的生成器函數,這些函數都可以從輸入的多個可迭代對象中產出元素。

以下為演示:

第四組是從一個元素中產出多個值,擴展輸入的可迭代對象。

以下為演示:

第五組生成器函數用於產出輸入的可迭代對象中的全部元素,不過會以某種方式重新排列。

下面的函數都接受一個可迭代的對象,然後返回單個結果,這種函數叫“歸約函數”,“合攏函數”或“累加函數”,其實,這些內置函數都可以用 functools.reduce 函數實現,但內置更加方便,而且還有一些優點。

參考教程:

《流暢的python》 P330 – 363

Python中的迭代器是什麼

迭代器 

迭代是訪問集合元素的一種方式。迭代器是一個可以記住遍歷的位置的對象。迭代器對象從集合的第一個元素開始訪問,直到所有的元素被訪問完結束。迭代器只能往前不會後退。

1.可迭代對象 

以直接作用於for循環的數據類型有以下幾種:

一類是集合數據類型,如list、tuple、dict、set、str等;

一類是generator,包括生成器和帶yield的generator function。

這些可以直接作用於for循環的對象統稱為可迭代對象:Iterable。

2.判斷是否可以迭代 

可以使用isinstance()判斷一個對象是否是Iterable對象:

運行結果:

而生成器不但可以作用於for循環,還可以被next()函數不斷調用並返回下一個值,直到最後拋出StopIteration錯誤表示無法繼續返回下一個值了。

相關推薦:《Python視頻教程》

3.迭代器

可以被next()函數調用並不斷返回下一個值的對象稱為迭代器:Iterator。

運行結果:

4.iter()函數 

生成器都是Iterator對象,但list、dict、str雖然是Iterable,卻不是Iterator。

把list、dict、str等Iterable變成Iterator可以使用iter()函數:

運行結果:

總結

·凡是可作用於for循環的對象都是Iterable類型;

·凡是可作用於next()函數的對象都是Iterator類型

·集合數據類型如list、dict、str等是Iterable但不是Iterator,不過可以通過iter()函數獲得一個Iterator對象。

·目的是在使用集合的時候,減少佔用的內容。

相關推薦:

三分鐘看懂什麼是Python生成器

Python中的迭代器與可迭代:iter()和next()

一種自動迭代的更優雅的實現是使用 for循環

在Python中,迭代器(Iterator)和可迭代(iterable)的區別是,迭代器支持 iter ()和 next ()方法;可迭代支持 iter ()方法。可迭代只能在for循環中獲得元素,迭代器還可以用next()方法獲取元素。

list/truple/map/dict都是可迭代,但不是迭代器;這些數據的大小是確定的;迭代器不是,迭代器不知道要執行多少次,所以可以理解為不知道有多少個元素,每調用一次next(),就會往下走一步。

凡是可以for循環的,都是Iterable

凡是可以next()的,都是Iterator

Python基礎之迭代器

一.什麼是迭代器

迭代器是用來迭代取值的工具。

而涉及到把多個值循環取出來的類型有:列表,字符串,元組,字段,集合,打開文件等。通過使用的遍歷方式有for···in···,while等,但是,這些方式只適用於有索引的數據類型。為了解決索引取的局限性,python提供了一種 不依賴於索引的取值方式:迭代器

注意:

二.可迭代對象

可迭代對象:但凡內置有__iter__方法的都稱為可迭代對象

常見的可迭代對象:

1.集合數據類型,如list,tuple,dict,set,str等

2.生成器,包括生成器和帶yield的生成器函數。

三.如何創建迭代器

迭代器是一個包含數個值的對象。

迭代器是可以迭代的對象,這意味着您可以遍歷所有值。

從技術上講,在Python中,迭代器是實現迭代器協議的對象,該協議由方法 __iter__() 和 __next__() 組成。

簡而言之,一個類裡面實現了__iter__()和__next__()這兩個魔法方法,那麼這個類的對象就是可迭代對象。

四.迭代器的優缺點

1.優點

2.缺點

五.迭代器示例

另外,如果類Stu繼承了Iterator,那麼Stu可以不用實現__iter__()方法

遍歷迭代器

StopIteration

如果你有足夠的 next() 語句,或者在 for 循環中使用,則上面的例子將永遠進行下去。

為了防止迭代永遠進行,我們可以使用 StopIteration 語句。

在 __next__() 方法中,如果迭代完成指定的次數,我們可以添加一個終止條件來引發錯誤

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/305033.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2025-01-01 11:06
下一篇 2025-01-01 11:06

相關推薦

  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python中new和init的區別

    new和init都是Python中常用的魔法方法,它們分別負責對象的創建和初始化,本文將從多個角度詳細闡述它們的區別。 一、創建對象 new方法是用來創建一個對象的,它是一個類級別…

    編程 2025-04-29
  • Python中capitalize函數的使用

    在Python的字符串操作中,capitalize函數常常被用到,這個函數可以使字符串中的第一個單詞首字母大寫,其餘字母小寫。在本文中,我們將從以下幾個方面對capitalize函…

    編程 2025-04-29
  • PHP和Python哪個好找工作?

    PHP和Python都是非常流行的編程語言,它們被廣泛應用於不同領域的開發中。但是,在考慮擇業方向的時候,很多人都會有一個問題:PHP和Python哪個好找工作?這篇文章將從多個方…

    編程 2025-04-29
  • Python for循環求1到100的積

    Python中的for循環可以方便地遍歷列表、元組、字典等數據類型。本文將以Python for循環求1到100的積為中心,從多個方面進行詳細闡述。 一、for循環語法 Pytho…

    編程 2025-04-29

發表回復

登錄後才能評論