大數組上的python內存錯誤,python內存一直增加

本文目錄一覽：

1、python 出現這個錯誤是什麼原因
2、python為何會內存超限，應該怎麼改？
3、python 合併上百個文件 memory error
4、Python:MemoryError
5、python讀取文件存入數組，內存怎麼超了，不應該呀？麻煩幫忙看看

python 出現這個錯誤是什麼原因

要把代碼發現來才知道，以下是常見的錯誤

下面終於要講到當你用到更多的Python的功能（數據類型，函數，模塊，類等等）時可能碰到的問題了。由於篇幅有限，這裡盡量精簡，尤其是對一些高級的概念。要想了解更多的細節，敬請閱讀Learning Python, 2nd Edition的“小貼士”以及“Gotchas”章節。

打開文件的調用不使用模塊搜索路徑

當你在Python中調用open()來訪問一個外部的文件時，Python不會使用模塊搜索路徑來定位這個目標文件。它會使用你提供的絕對路徑，或者假定這個文件是在當前工作目錄中。模塊搜索路徑僅僅為模塊加載服務的。

不同的類型對應的方法也不同

列表的方法是不能用在字符串上的，反之亦然。通常情況下，方法的調用是和數據類型有關的，但是內部函數通常在很多類型上都可以使用。舉個例子來說，列表的reverse方法僅僅對列表有用，但是len函數對任何具有長度的對象都適用

不能直接改變不可變數據類型

記住你沒法直接的改變一個不可變的對象（例如，元組，字符串）：

T = (1, 2, 3)

T[2] = 4 # 錯誤

用切片，聯接等構建一個新的對象，並根據需求將原來變量的值賦給它。因為Python會自動回收沒有用的內存，因此這沒有看起來那麼浪費：

T = T[:2] + (4,) # 沒問題了: T 變成了 (1, 2, 4)

使用簡單的for循環而不是while或者range

當你要從左到右遍歷一個有序的對象的所有元素時，用簡單的for循環（例如，for x in seq:）相比於基於while-或者range-的計數循環而言會更容易寫，通常運行起來也更快。除非你一定需要，盡量避免在一個for循環里使用range：讓Python來替你解決標號的問題。在下面的例子中三個循環結構都沒有問題，但是第一個通常來說更好；在Python里，簡單至上。

S = “lumberjack”

for c in S: print c # 最簡單

for i in range(len(S)): print S[i] # 太多了

i = 0 # 太多了

while i len(S): print S[i]; i += 1

不要試圖從那些會改變對象的函數得到結果

諸如像方法list.append()和list.sort()一類的直接改變操作會改變一個對象，但不會將它們改變的對象返回出來（它們會返回None）；正確的做法是直接調用它們而不要將結果賦值。經常會看見初學者會寫諸如此類的代碼：

mylist = mylist.append(X)

目的是要得到append的結果，但是事實上這樣做會將None賦值給mylist，而不是改變後的列表。更加特別的一個例子是想通過用排序後的鍵值來遍歷一個字典里的各個元素，請看下面的例子：

D = {…}

for k in D.keys().sort(): print D[k]

差一點兒就成功了——keys方法會創建一個keys的列表，然後用sort方法來將這個列表排序——但是因為sort方法會返回None，這個循環會失敗，因為它實際上是要遍歷None（這可不是一個序列）。要改正這段代碼，將方法的調用分離出來，放在不同的語句中，如下：

Ks = D.keys()

Ks.sort()

for k in Ks: print D[k]

只有在數字類型中才存在類型轉換

在Python中，一個諸如123+3.145的表達式是可以工作的——它會自動將整數型轉換為浮點型，然後用浮點運算。但是下面的代碼就會出錯了：

S = “42”

I = 1

X = S + I # 類型錯誤

這同樣也是有意而為的，因為這是不明確的：究竟是將字符串轉換為數字（進行相加）呢，還是將數字轉換為字符串（進行聯接）呢？在Python中，我們認為“明確比含糊好”（即，EIBTI（Explicit is better than implicit）），因此你得手動轉換類型：

X = int(S) + I # 做加法: 43

X = S + str(I) # 字符串聯接: “421”

循環的數據結構會導致循環

儘管這在實際情況中很少見，但是如果一個對象的集合包含了到它自己的引用，這被稱為循環對象（cyclic object）。如果在一個對象中發現一個循環，Python會輸出一個[…]，以避免在無限循環中卡住：

L = [‘grail’] # 在 L中又引用L自身會

L.append(L) # 在對象中創造一個循環

[‘grail’, […]]

除了知道這三個點在對象中表示循環以外，這個例子也是很值得借鑒的。因為你可能無意間在你的代碼中出現這樣的循環的結構而導致你的代碼出錯。如果有必要的話，維護一個列表或者字典來表示已經訪問過的對象，然後通過檢查它來確認你是否碰到了循環。

賦值語句不會創建對象的副本，僅僅創建引用

這是Python的一個核心理念，有時候當行為不對時會帶來錯誤。在下面的例子中，一個列表對象被賦給了名為L的變量，然後L又在列表M中被引用。內部改變L的話，同時也會改變M所引用的對象，因為它們倆都指向同一個對象。

L = [1, 2, 3] # 共用的列表對象

M = [‘X’, L, ‘Y’] # 嵌入一個到L的引用

[‘X’, [1, 2, 3], ‘Y’]

L[1] = 0 # 也改變了M

[‘X’, [1, 0, 3], ‘Y’]

通常情況下只有在稍大一點的程序里這就顯得很重要了，而且這些共用的引用通常確實是你需要的。如果不是的話，你可以明確的給他們創建一個副本來避免共用的引用；對於列表來說，你可以通過使用一個空列表的切片來創建一個頂層的副本：

L = [1, 2, 3]

M = [‘X’, L[:], ‘Y’] # 嵌入一個L的副本

L[1] = 0 # 僅僅改變了L，但是不影響M

[1, 0, 3]

[‘X’, [1, 2, 3], ‘Y’]

切片的範圍起始從默認的0到被切片的序列的最大長度。如果兩者都省略掉了，那麼切片會抽取該序列中的所有元素，並創造一個頂層的副本（一個新的，不被公用的對象）。對於字典來說，使用字典的dict.copy()方法。

靜態識別本地域的變量名

Python默認將一個函數中賦值的變量名視作是本地域的，它們存在於該函數的作用域中並且僅僅在函數運行的時候才存在。從技術上講，Python是在編譯def代碼時，去靜態的識別本地變量，而不是在運行時碰到賦值的時候才識別到的。如果不理解這點的話，會引起人們的誤解。比如，看看下面的例子，當你在一個引用之後給一個變量賦值會怎麼樣：

X = 99

def func():

… print X # 這個時候還不存在

… X = 88 # 在整個def中將X視作本地變量

…

func( ) # 出錯了！

你會得到一個“未定義變量名”的錯誤，但是其原因是很微妙的。當編譯這則代碼時，Python碰到給X賦值的語句時認為在這個函數中的任何地方X會被視作一個本地變量名。但是之後當真正運行這個函數時，執行print語句的時候，賦值語句還沒有發生，這樣Python便會報告一個“未定義變量名”的錯誤。

事實上，之前的這個例子想要做的事情是很模糊的：你是想要先輸出那個全局的X，然後創建一個本地的X呢，還是說這是個程序的錯誤？如果你真的是想要輸出這個全局的X，你需要將它在一個全局語句中聲明它，或者通過包絡模塊的名字來引用它。

默認參數和可變對象

在執行def語句時，默認參數的值只被解析並保存一次，而不是每次在調用函數的時候。這通常是你想要的那樣，但是因為默認值需要在每次調用時都保持同樣對象，你在試圖改變可變的默認值（mutable defaults）的時候可要小心了。例如，下面的函數中使用一個空的列表作為默認值，然後在之後每一次函數調用的時候改變它的值：

def saver(x=[]): # 保存一個列表對象

… x.append(1) # 並每次調用的時候

… print x # 改變它的值

…

saver([2]) # 未使用默認值

[2, 1]

saver() # 使用默認值

[1]

saver() # 每次調用都會增加！

[1, 1]

saver()

[1, 1, 1]

有的人將這個視作Python的一個特點——因為可變的默認參數在每次函數調用時保持了它們的狀態，它們能提供像C語言中靜態本地函數變量的類似的一些功能。但是，當你第一次碰到它時會覺得這很奇怪，並且在Python中有更加簡單的辦法來在不同的調用之間保存狀態（比如說類）。

要擺脫這樣的行為，在函數開始的地方用切片或者方法來創建默認參數的副本，或者將默認值的表達式移到函數裡面；只要每次函數調用時這些值在函數里，就會每次都得到一個新的對象：

def saver(x=None):

… if x is None: x = [] # 沒有傳入參數？

… x.append(1) # 改變新的列表

… print x

…

saver([2]) # 沒有使用默認值

[2, 1]

saver() # 這次不會變了

[1]

saver()

[1]

其他常見的編程陷阱

下面列舉了其他的一些在這裡沒法詳述的陷阱：

在頂層文件中語句的順序是有講究的：因為運行或者加載一個文件會從上到下運行它的語句，所以請確保將你未嵌套的函數調用或者類的調用放在函數或者類的定義之後。

reload不影響用from加載的名字：reload最好和import語句一起使用。如果你使用from語句，記得在reload之後重新運行一遍from，否則你仍然使用之前老的名字。

在多重繼承中混合的順序是有講究的：這是因為對superclass的搜索是從左到右的，在類定義的頭部，在多重superclass中如果出現重複的名字，則以最左邊的類名為準。

在try語句中空的except子句可能會比你預想的捕捉到更多的錯誤。在try語句中空的except子句表示捕捉所有的錯誤，即便是真正的程序錯誤，和sys.exit()調用，也會被捕捉到。望採納

python為何會內存超限，應該怎麼改？

分區表錯誤是硬盤的嚴重錯誤，不同錯誤的程度會造成不同的損失。如果是沒有活動分區標誌，則計算機無法啟動。但從軟區或光區引導系統後可對硬盤讀寫，可通過fdisk重置活動分區進行修復。如果是某一分區類型錯誤，可造成某一分區的丟失。分區表的第四個字節為分區類型值，正常的可引導的大於32mb的基本DOS分區值為06，而擴展的DOS分區值是05。如果把基本DOS分區類型改為05則無法啟動系統，並且不能讀寫其中的數據。如果把06改為DOS不識別的類型如efh，則DOS認為改分區不是 DOS分區，當然無法讀寫。很多人利用此類型值實現單個分區的加密技術，恢復原來的正確類型值即可使該分區恢復正常。分區表中還有其他數據用於紀錄分區的起始或終止地址。這些數據的損壞將造成該分區的混亂或丟失，一般無法進行手工恢復，唯一的方法是用備份的分區表數據重新寫回，或者從其他的相同類型的並且分區狀況相同的硬盤上獲取分區表數據，否則將導致其他的數據永久的丟失。在對主引導扇區進行操作時，可採用nu等工具軟件，操作非常的方便，可直接對硬盤主引導扇區進行讀寫或編輯。當然也可採用de

python 合併上百個文件 memory error

通常不會遇到這個問題。python解決小問題不會有memory error

可能是使用了大對象也可能是使用了遞歸。沒有合適規劃臨時或者是堆棧數據的數量。

那麼有問題大部分是因為dict或者是list太大了。解決辦法是使用優化過的數據結構，比如blist，或者是直接使用numpy的數組，array數據結構等等。

解決辦法多。還可以使用64位版本。其實意義不大。python自己不需要管理大內存。也不需要大內存操作。

所以要用分布式架構解決問題。把問題分解成500MB以下的小問題，這樣即使是32位的python也可以輕鬆完成。

內存管理的事情還是交給 C， C++這樣的程序比較合適。2GB以下可以使用共享內存。如果超過了，比如8，16， 96gb等。可以考慮使用數據庫去管理。

如果你一定要用大對象也沒有關係，其實效率也是挺高的。只是算法要優化。

Python:MemoryError

要破這個東西，要先破你的算法。先別說破這個詞了。

梳理你的算法，避免三重循環，避免大量使用字典的多次嵌套。

顯然你的數據量巨大。還用這麼耗內存，耗CPU的算法。只有算法改良了才能解決這個問題。即使給你C語編程，你都能把內存用光了。你把矩陣放在字典里，內存肯定吃不消。順便說一下，你用的python應該是32位的。如果是64位的會好些。

在python里，大數據處理一定要減少字典使用。如果字典項超過一定值比為2萬，就要小心。字典主要是用來統計用，不用來計算。建議你考慮numpy.array做。如果不想用它就用Array，如果還不想可以用blist(第三方包），最差也要用list。字典雖然查找比list快，但是它耗更多內存。

比如你這個問題，你可以先考慮兩步走。不要把算法放在一起，雖然效率高，但是後期維護成本高。

第一步計算“瀏覽過每種物品的人數”，這個可以用字典。但是因為要做人與物品的關聯，所以，應該是說錯了。應該是“計算某個瀏覽過某個物品”。

你這裡與時間沒有關係。算法應該沒有計算“時間”加權。

我理解你的算法應該是用戶瀏覽”兩個物品時”，則累加兩個物品同時瀏覽次數。

並將次數除以，用戶分別瀏覽i,j次數乘積的開根方。這本來是一個很簡單的算法。你弄太複雜了。

建議你這樣。你使用兩個字典，分別這樣

items_browsed_by_user[userid][product_id]

items_browsed_cross [userid][[product_id_i, product_id_j]]

記着在給items_browsed_cross [userid][(product_id_i, product_id_j)]賦值時。保證product_id_i product_id_j

這樣你只需要一半的內存就可以存i*j矩陣。因為先瀏覽i, 再j和先j再i，結果是一樣的。

最理想的辦法是給userid編寫一個編號，從0到number of users，這樣直接用數組就可以存放。不需要字典。再給product_id編號用順序號代替。這樣內存佔用更少。只需要一個二維數組就可以存貯數據。

如果內存還不足夠，就要引入稀疏矩陣。

如果還不足夠，也可以的。每次計算，只計算一行。然後存貯到硬盤上。按行按列分別計算。這在大數據環境里很容易就做到了。

python讀取文件存入數組，內存怎麼超了，不應該呀？麻煩幫忙看看

沒有必要全部讀入內存，

python中的整數都是以2個字節為單位增長的可變長整型。通常都大於“134341”這種文本數字的6個字節。每個內存中的整數都有冗餘overhead的內存佔用，所以不要全讀成py的內存數字。

根據所需要進行的操作，讀取其中一部分，比如100MB為單位處理，就可以了。

想想阿波羅登月的時候幾K內存就可以處理整個導航數據了，用了3G還不夠的情況一般屬於誤用了。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/288943.html