本文目錄一覽:
- 1、Python其實很簡單 第十五章 文件操作
- 2、python對文件的獨操作有哪幾種?請詳細說明每種方法
- 3、開啟數據分析的大門-數據收集:Python對文件的操作
- 4、python大文件處理
- 5、Python文件處理注意事項總結
Python其實很簡單 第十五章 文件操作
在各種變量中保存的數據都是臨時的,隨着程序運行結束都會丟失。要做到數據長期有效,必須建立在磁盤中建立文件,將數據輸入到文件中並保存。需要獲取數據時需要打開文件讀取。
而我們自己建立的程序都是應用程序,從本質上講,應用程序是無法直接操作計算機的硬件的,譬如讀寫磁盤中文件,這就需要調用操作系統中的相應命令。接下來我們使用的Python內置函數open()、write()都是通過調用操作系統的相關命令才實現文件讀寫的,至於其中的細節,我們就不需要考慮了。
15.1創建和打開文件
在Python 中創建或打開文件,實際上是建立一個對象,該對象通過調用內置的open()函數創建或打開一個文件。
語法:
file object = open(filename [, mode][, buffering])
參數說明如下:
filename:file_name變量是一個包含了你要訪問的文件名稱的字符串值;
mode:mode決定了打開文件的模式:只讀,寫入,追加等。所有可取值見如下的完全列表。這個參數是非強制的,默認文件訪問模式為只讀(r)。
Buffering:如果buffering的值被設為0,就不會有寄存;如果buffering的值取1,訪問文件時會寄存行;如果將buffering的值設為大於1的整數,表明了這就是的寄存區的緩衝大小;如果取負值,寄存區的緩衝大小則為系統默認。
mode參數的參數值及說明
對於其中最難區別的r、r+、w、w+、a、a+幾個參數的區別總結如下,要特別注意指針的位置:
下面舉例說明open( )函數的使用方法。
例1:
file=open(‘1.py’)
如果文件「1.py」存在,則可以打開此文件;如果文件「1.py」不存在,則會出現如下提示:
Traceback (most recent call last):
File ” “, line 1, in
file=open(‘1.py’)
FileNotFoundError: [Errno 2] No such file or directory: ‘1.py’
例2:
file=open(‘4.py’,』a+』)
雖然文件「4.py」不存在,但運行並未出現錯誤,參見上表,「a+」的含義是以讀寫模式打開文件,如果該文件已經存在,新內容將以追加方式寫入;如果該文件不存在,則新建文件用於寫入。查看文件夾,發現已經生成了一個新的文件4.py。
例3:
file=open(‘python.png’,’rb’)
print(file)
運行結果:
這就是說,雖然Python可以打開一個圖片格式的文件,但print()並不能將其輸出,還需要第三方庫中模塊的相應方法去處理,如PIL中的open()f方法。
例4:
file = open(“f.txt”, “w”,encoding=’utf-8′)
# 以只寫模式打開文件f.txt,編碼方式為utf-8
print( “文件名: “, file.name) # 輸出文件名
print( “是否已關閉 : “, file.closed) # 文件是否打開
print( “訪問模式 : “, file.mode) # 文件訪問模式
運行結果:
文件名: f.txt
是否已關閉 : False
訪問模式 : w
例5:
15.2關閉文件
打開文件使用後要及時關閉,以免造成不必要的破壞,同時也可以釋放內存。在Python中使用close()方法可以關閉文件。
語法格式:
file.close()
其中,file為文件對象。
15.3 with語句
with 語句適用於對資源進行訪問的場合,確保不管使用過程中是否發生異常都會執行必要的「清理」操作,釋放資源,比如文件使用後自動關閉、線程中鎖的自動獲取和釋放等。
with語句的語法格式如下:
with expression as target:
with-body
其中,expression用於指定一個表達式,譬如打開文件的open()函數。target用於指定一個變量,並且將expression的結果保存到該變量中,譬如文件對象file。with-body用於指定with語句體,譬如一些文件操作的相關語句,如果沒有要執行的語句體,則直接用pass語句代替。
假設python當前目錄下存在一個test.txt文件,其內容如下:
Python是一種解釋型語言: 這意味着開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。
Python是交互式語言: 這意味着,您可以在一個 Python 提示符 後直接執行代碼。
Python是面向對象語言: 這意味着Python支持面向對象的風格或代碼封裝在對象的編程技術。
Python是初學者的語言:Python 對初級程序員而言,是一種偉大的語言,它支持廣泛的應用程序開發。
舉例如下:
with open(‘test.txt’,’r’,encoding=’utf-8′) as file:
line=file.readline() # readline()方法可以讀取文件一行數據,接下來就會講到。
print(line)
運行結果如下:
Python是一種解釋型語言: 這意味着開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。
而此時,我們給該段代碼with語句之外再增加一個讀取文件的語句,代碼如下:
with open(‘test.txt’,’r’,encoding=’utf-8′) as file:
line=file.readline()
print(line)
line2=file.readline()
print(line2)
發現出現了如下錯誤提示:
Traceback (most recent call last):
File “C:/Users/zym/AppData/Local/Programs/Python/Python39/3.py”, line 5, in
line2=file.readline()
ValueError: I/O operation on closed file.
意思是要讀取的文件已經被關閉了。
由此可知,當with語句運行結束後,被打開的test.txt文件就自動關閉了。
15.4讀取文件
在Python 中讀取文件的方法有:
1、讀取指定個數的字符
格式如下:
File.read([size])
其中,file為打開的文件對象。size為可選參數,可以指定要讀取的字符個數,省缺表示讀取所有內容。
在調用read()方法讀取文件內容時,文件必須是以r(只讀)或者r+(讀寫)方式打開。
如:
with open(‘test.txt’,’r’,encoding=’utf-8′) as file:
txt=file.read() (或txt=file.read(10))
print(txt)
將讀取、輸出test.txt文件的全部內容(或前10個字符)。
2、移動文件的指針
對於剛打開的文件,文件指針總是指向文件頭的。也可以通過seek()方法將文件的指針移動到新的位置。
格式如下:
file.seek(offset[,whence])
其中,file表示已經打開的文件對象;offset用於指定移動的字符個數;whence表示從哪個位置起始計算個數,其值為0表示從文件頭開始計算,其值為1表示從當前位置開始計算,其值為2表示從文件尾開始計算,默認值為0。
例如:
with open(‘test.txt’,’r’,encoding=’utf-8′) as file:
string=file.read(9)
print(‘取9個字符: ‘+string)
file.seek(2) #指針從文件頭開始移動2個字符
string=file.read(9) #從當前位置讀取10個字符
輸出結果:
取9個字符:
Python是一種
取9個字符:
thon是一種解釋
而下面的代碼會拋出錯誤:
with open(‘test.txt’,’r’,encoding=’utf-8′) as file:
file.seek(2,1) #指針從當前位置開始移動2個字符
string=file.read(10) #從當前位置讀取10個字符
print(‘取10個字符: ‘+string)
錯誤提示為:
Traceback (most recent call last):
File “C:UserszymAppDataLocalProgramsPythonPython393.py”, line 7, in
file.seek(2,1) #指針從當前位置開始移動2個字符
io.UnsupportedOperation: can’t do nonzero cur-relative seeks
原因在於,必須使用b模式(即rb)打開文件,才能使用whence參數。但是,b模式(二進制)不適合文本文件。對於test.txt這樣的文本文件,為了解決通過改變指針讀取任意位置字符,可以採用加一個位置變量的方法來存儲指針的值。
例如:
with open(‘test.txt’,’r’,encoding=’utf-8′) as file:
#utf-8漢字與英文字符都佔一個字符
string=” #設置一個空字符串
pointer=0 #當前指針為0
str1=file.read(6) #讀取6個字符
pointer+=6 #指針變量後移6個字符
string+=str1 #string用來存放已讀取的字符
print(‘取6個字符: ‘,str1)
file.seek(pointer) #指針從文件頭開始移動2個字符
str1=file.read(8) #從當前位置讀取10個字符
pointer+=8 #指針跳過已讀取的字符
string+=str1
print(‘再取8個字符: ‘,str1)
print(‘所有讀取的字符: ‘,string)
print(‘當前指針所處的位置: ‘,pointer)
str1=file.read(1)
print(‘當前指針所處的字符: ‘,str1)
運行結果如下:
取6個字符:
Python
再取8個字符:
是一種解釋型語言
所有讀取的字符:
Python是一種解釋型語言
當前指針所處的位置:
14
當前指針所處的字符:
:
3、讀取一行數據readline()方法
語法格式:
file.readline()
例:
with open(‘test.txt’,’r’,encoding=’utf-8′) as f:
string=f.read(1) # 讀取文件的第一個字符
if string != ”: # 防止文件為空文件
lineno=0
while True:
line=f.readline()
if line != ”:
lineno+=1
print(‘第’+str(lineno)+’行:’+line,end=”)
# 因為每行都有自帶的分行符,print()語句不允許換行
else:
break # 出現空行時停止讀取
else:
print(‘要讀取的文件為空文件!’)
運行結果:
第1行:ython是一種解釋型語言: 這意味着開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。
第2行:Python是交互式語言: 這意味着,您可以在一個 Python 提示符 後直接執行代碼。
第3行:Python是面向對象語言: 這意味着Python支持面向對象的風格或代碼封裝在對象的編程技術。
第4行:Python是初學者的語言:Python 對初級程序員而言,是一種偉大的語言,它支持廣泛的應用程序開發。
4、讀取全部行命令readlines()方法
語法格式:
File.readlines()
該方法與read()方法一樣,在調用read()方法讀取文件內容時,文件必須是以r(只讀)或者r+(讀寫)方式打開。
例:
with open(‘test.txt’,’r’,encoding=’utf-8′) as f:
txt=f.readlines()
print(txt)
運行結果:
[‘Python是一種解釋型語言: 這意味着開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。 ‘, ‘Python是交互式語言: 這意味着,您可以在一個 Python 提示符 後直接執行代碼。 ‘, ‘Python是面向對象語言: 這意味着Python支持面向對象的風格或代碼封裝在對象的編程技術。 ‘, ‘Python是初學者的語言:Python 對初級程序員而言,是一種偉大的語言,它支持廣泛的應用程序開發。 ‘]
從上面的運行結果可以看出,readlines()方法的返回值為一個字符串列表。所以,也可以以讀取列表元素的方法輸出。如下所示:
with open(‘test.txt’,’r’,encoding=’utf-8′) as f:
txt=f.readlines()
for line in txt:
print(line,end=”)
運行結果:
Python是一種解釋型語言: 這意味着開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。
Python是交互式語言: 這意味着,您可以在一個 Python 提示符 後直接執行代碼。
Python是面向對象語言: 這意味着Python支持面向對象的風格或代碼封裝在對象的編程技術。
Python是初學者的語言:Python 對初級程序員而言,是一種偉大的語言,它支持廣泛的應用程序開發。
15.5 寫入文件內容
語法格式如下:
file.write(string)
其中,file為打開的文件對象,string為要寫入的字符串。
寫入文件內容時,文件必須以w(可寫)或a(追加)模式打開。否則,會拋出如下異常提示:
Traceback (most recent call last):
File “C:UsersAdministratorAppDataLocalProgramsPythonPython383.py”, line 2, in
f.write(‘人生苦短,我用Python!’)
io.UnsupportedOperation: not writable
關於write()方法的用法舉例如下:
with open(‘test.txt’,’a’,encoding=’utf-8′) as f:
f.write(‘人生苦短,我用Python!’)
with open(‘test.txt’,’r’,encoding=’utf-8′) as f:
txt=f.read()
print(txt)
運行結果:
Python是一種解釋型語言: 這意味着開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。
Python是交互式語言: 這意味着,您可以在一個 Python 提示符 後直接執行代碼。
Python是面向對象語言: 這意味着Python支持面向對象的風格或代碼封裝在對象的編程技術。
Python是初學者的語言:Python 對初級程序員而言,是一種偉大的語言,它支持廣泛的應用程序開發。
人生苦短,我用Python!
可以看出,由於文件的打開方式為a模式(追加模式),寫入的內容被寫入到文件的末尾。
在Python中,文件操作方法里沒有類似於字符串內的計算長度、查找、替換、截取、分隔等方法,為什麼沒有?原因可能是文件的類型太複雜,譬如說二進制文件,上述操作的意義不大。如果僅僅要對文本文件進行上述操作,完全可以先把文件的內容讀取到字符串中,再用相應的字符串函數或方法去操作就可以了。譬如,要將test.txt文件中的字符串『Python』替換為』PHP』,則可以用如下代碼完成:
txt1=”
with open(‘test.txt’,’r’,encoding=’utf-8′) as f:
txt1=f.read() #先將文件內容存入字符串txt1中
txt2=txt1.replace(‘Python’,’PHP’) #將txt1中的’Python’替換為’PHP’,並存入txt2
with open(‘test.txt’,’w’,encoding=’utf-8′) as f:
f.write(txt2) #將字符串txt2的內容寫回到文件中
這裡之所以分兩步打開文件(第一次為r模式,第二次為w模式),而沒有採用一次讀寫(r+、w+方式),因為那樣比較容易出錯。實踐證明,將文件的讀操作和寫操作分開其實是非常正確的選擇。
python對文件的獨操作有哪幾種?請詳細說明每種方法
1.打開文件:
f=open(r’E:\PythonProjects\test7\a.txt’,mode=’rt’,encoding=’utf-8′)
以上三個單引號內分別表示:要打開的文件的路徑,mode為文件打開方式具體介紹在下文,encoding為文件的字符編碼,一般默認為utf-8
2.讀寫文件:
data=f.read() # 讀文件
f.write() # 寫文件
3.關閉文件:
f.close()
4.為了簡便,一般採用上下文的方法進行文件操作,可不用關閉文件
with open(‘a.txt’,mode=’rt’,encoding=’utf-8′) as f:
data=f.read()
print(data)
with open(‘a.txt’,mode=’wt’,encoding=’utf-8′) as f:
f.write(‘hello world’)
5.控制文件讀寫的操作:
r:(默認模式):只讀:以該模式打開文件時,若文件不存在則報錯,若文件存在,則文件指針在文件開頭,即從文件開頭開始讀文件
w:只寫:以該模式打開文件時,若文件不存在則創建一個文件,如文件存在,則清空文件內容,文件指針移到開頭
a:追加寫:以該模式打開文件時,若文件不存在則創建一個文件,如文件存在,則將文件指針移到文件末尾,在文件末尾寫入新的內容
6.控制文件讀寫內容的模式:(t 和 b都不能單獨使用,必須與r,w,a結合使用)
t:(默認):無論讀寫都是以字符為單位,只能識別文本文件,必須要制定encoding
b:無論讀寫都是以位元組為單位,可以識別所有文件,一定不能指定encoding
7.文件的拷貝
with open (‘a.txt’,mode=’rb’) as af,\
open(‘b.txt’,mode=’wb’) as bf:
data=af.read
f.write(data)
執行程序後,打開文件,即可發現文件已成功拷貝,這裡使用 b 而不是用 t 模式,是因為文件有多種格式
8.文件的修改:
文件的修改是在硬盤上實現文件的覆蓋,相當於一個新的文件以舊的文件名來命名的; 文件的修改有倆種方式,分別適用於不同的情景
方式一(適用於容量小的文件):這種方式的原理是:創建一個新的文件,將舊文件的內容拷貝到新的文件中;這樣內存里就存在倆個文件,故不適用於容量大的文件,具體代碼見下方 View
with open(‘a.txt’,mode=’rt’,encoding=’utf-8′) as f:
data=f.read()
data_new=data.replace(‘yang’, ‘yv’)
with open(‘b.txt’,mode=’wt’,encoding=’utf-8′)as p:
p.write(data_new)
方式二(適用於容量大的文件):此方式的原理為:讀取舊文件的一行內容,修改後寫到臨時文件中,循環往複直到寫完,然後將源文件刪除,將臨時文件命名為源文件名.這種方式在內存中只存在2行文件,節省內存,可用於大文件
import os
with open(‘b.txt’,mode=’rt’,encoding=’utf-8′) as f,\
open(‘.b.txt.swap’,mode=’wt’,encoding=’utf-8′) as p:
for line in f:
p.write(line.replace(‘yv’,’yang’))
# 調用replace方法,將源文件中的’yv’,換成’yang’
os.remove(‘b.txt’)
os.rename(‘.b.txt.swap’,’b.txt’)
9. 文件的階段:truncate(n)
將文件中n個位元組後內容全刪了,當 n 不存在時,即刪除文件全部內容
10.文件內指針的移動
f.seek(): 指針的移動是以位元組為單位的
seek 有三種模式:
0:(默認模式) 指針在文件開頭,只有在 0 模式可以在 t 模式下用,也可以在 b 模式下用,而 1 ,2 模式只能在 b 模式下使用
1:指針在當前位置
2:指針在文件末尾
以下為具體事例:
# 0
with open(‘a.txt’,mode=’rt’,encoding=’utf-8′)as f:
f.seek(3,0)
print(f.tell()) # 指針當前位置
print(f.read()) # 從指針後讀出所有內容
# 1 參照指針當前位置
with open(‘a.txt’,mode=’rb’)as f:
f.read(2)
f.seek(4,1)
print(f.tell())
print(f.read().decode(‘utf-8’))
# 2 參照文件末尾
with open(‘a.txt’,mode=’rb’)as f:
f.seek(-5,2)
print(f.tell())
print(f.read().decode(‘utf-8’))
當 seek處於 2 模式時,可以將文件中新加入的內容打印出來,具體代碼如下:
# 另一個文件進行寫操作,寫的代碼如下:
with open(‘a.txt’,mode=’at’,encoding=’utf-8′)as f:
f.write(‘hello world\n’)
# 每在文件中寫入新的內容,都打印出來,以下代碼執行打印操作:
import time
with open(‘a.txt’,mode=’rb’)as f:
f.seek(0,2)
while True:
line=f.readline() # readline 可以讀取沒有內容的部分
# print(line.decode(‘utf-8’))
if len(line)==0:
time.sleep(0.1)
else:
print(line.decode(‘utf-8’))
開啟數據分析的大門-數據收集:Python對文件的操作
簡介
我是一名應屆經濟學畢業生,在學習Python語言的過程中,接觸到了數據分析,機器學習和人工智能,並對此特別感興趣,現在我把整個學習過程記錄下來,希望和我有相同興趣和愛好的朋友們一同成長,期盼着各位專家的指導。
環境介紹
在整個過程當中,將採用Python和Excel,採用Python,是因為Python提供了豐富的開發框架和工具庫,使用Excel是因為Excel是使用非常廣泛的辦公軟件,我在Excel里將複雜的算法簡單化,使大家快速理解各種難以理解的算法。
在開始之前,我們已經準備好了Anaconda和Excel環境。在這裡省略了這個過程。
數據獲取將通過tushare開放平台,後面我會介紹和演示如何應用tushare平台。
數據分析流程簡介
數據分析是由數據收集開始,收集的數據經過標準化處理和整理後,通過各種算法,進行數據分析,目的是為了總結過去的 歷史 數據,在數據趨勢上預測未來的走勢,同時對現存的環境進行優化。
我們今天先從數據收集開始。
數據收集需要應用到Python對文件的讀寫操作。
下面這段代碼以只讀方式採用』UTF-8』編碼方式打開當前目錄下的text1.txt文件,並輸出到屏幕上。操作完畢後,關閉文件。
小貼士:在從tushare平台獲取數據時,每個用戶會分配到一個key,我們可以把這個key封裝到這個文件里。為的是數據安全和便利性。
Python對數據的處理主要是csv文件格式,Excel和數據庫。今天我們主要針對csv文件進行操作。為的是儘快開始我們的數據分析之旅。後面在適當的時候,我來完成對Excel和數據庫的操作。
Python 讀取csv文件有很多種方法,我們這裡採用PANDAS庫,下面是讀取csv文件代碼:
下面這段代碼先生成數據列表,然後寫入csv文件。
好了,到現在為止,Python對數據收集的基礎工作就算完成了,Python對文件操作有很多技巧,不是我們這一系列的重點,就不一一介紹了,有興趣的夥伴可以查閱相關文檔。
python大文件處理
1. Chunks——分塊處理
2. 分段式反覆讀取
3. with open()
4. fileinput()
該模塊的input()函數有點類似文件readlines()方法,但它是一個可迭代對象,即每次只生成一行,需要用for循環迭代。在碰到大文件的讀取時,無疑效率更高效。用fileinput對文件進行循環遍歷,格式化輸出,查找、替換等操作,非常方便。
Python文件處理注意事項總結
Python文件處理注意事項總結
文件處理在編程中是常見的操作,文件的打開,關閉,重命名,刪除,追加,複製,隨機讀寫非常容易理解和使用。需要注意的是文件的安全關閉,採用with語句輕鬆便捷:
1.CSV 的文件處理
csv 模塊可以很好地處理csv文件,而Pandas 模塊則可以較好的處理大型的csv文件,還可以處理HTML等,並提供分塊處理。
2.XML 的文件處理
對於較小的xml文件,最好使用cElementTree,至少要用ElementTree,對於大型文件,最好用lxml處理。
3.文件內容的序列化和范序列化
用pickle 實現序列化和反序列化非常簡單dump()和load()即可,但要注意,pickle不能實現原子化操作,數據源敏感,存在安全隱患。另一種序列化的形式是json。同樣是dumps(),load(),擴展性好,可以指定decoder,性能比pickle差一些。
4.日誌文件處理
在記錄日誌文件使用logging 模塊是要注意logging是線程安全的,避免多個進程同時寫入同一個日誌。
5.圖像文件處理
對於通常的文件的圖像處理,PIL 模塊足以應付了。在Linux環境下要注意相關圖像庫的安裝,一般ImageMagick 庫是首選。如果涉及圖像識別等深層次圖像處理,就要尋求OpenCV的幫助了
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/256521.html