本文目錄一覽:
- 1、python 讀取文本里有多種編碼
- 2、Python讀取文件內容的方法有幾種
- 3、python3讀文件編碼錯誤怎麼辦
- 4、Python中的文件讀寫-理論知識
- 5、python讀寫文件
- 6、python對文本文件的讀有哪些方法,寫有哪些方法?
python 讀取文本里有多種編碼
讀取ANSI編碼文件
建立一個文件test.txt,文件格式用ANSI,內容為:
abc中文
用Python來讀取
# coding=gbk
print open(“Test.txt”).read()
結果:abc中文
讀取utf-8編碼文件(無BOM)
把文件格式改成UTF-8:
結果:abc涓 枃
顯然,這裡需要解碼:
# -*- coding: utf-8 -*-
import codecs
print open(“Test.txt”).read().decode(“utf-8”)
結果:abc中文
讀取utf-8編碼文件(有BOM)
某些軟件在保存一個以UTF-8編碼的文件時,默認會在文件開始的地方插入三個不可見的字符(0xEF 0xBB 0xBF,即BOM)。在有些軟件可以控制是否插入BOM。如果在有BOM的情況下,在讀取時需要自己去掉這些字符,python中的codecs module定義了這個常量:
Python讀取文件內容的方法有幾種
python讀取文本文件內容的方法主要有三種:read()、readline()、readlines()。
第一種:read()
read()是最簡單的一種方法,一次性讀取文件的所有內容放在一個大字符串中,即內存中。
read()的好處:方便、簡單,一次性讀出文件放在一個大字符串中,速度最快。
read()的壞處:文件過大的時候,佔用內存會過大。
第二種:readline()
readline()逐行讀取文本,結果是一個list。
readline()的好處:佔用內存小,逐行讀取。
readline()的壞處:逐行讀取,速度比較慢。
第三種:readlines()
readlines()一次性讀取文本的所有內容,結果是一個list。
readlines()的好處:一次性讀取文本內容,速度比較快。
readlines()的壞處:隨着文本的增大,佔用內存會越來越多。
python3讀文件編碼錯誤怎麼辦
在python3中系統默認編碼是unicode,讀取文件經常會編碼錯誤導致報錯。
首先先確認要讀取文件的編碼,可這樣操作:
記事本打開文本文件,點擊“文件”-“另存為”查看編碼:
如圖顯示編碼就是當前的文件編碼,這裡是“utf-8”。
2. 要想用指定編碼打開,使用codecs模塊
安裝模塊pip命令:
pip install codecs
3. 使用codecs模塊,例如讀取test文件內容並打印:
import codecs
f=codecs.open(r”test.txt”,”r”,”gbk”)
print(f.read())
f.close()
(示例的文件是ANSI所以使用GBK讀取)
以上就可以正確讀取想要的文件了
Python中的文件讀寫-理論知識
Python處理兩種不同類型的文件:二進制文件和文本文件。了解兩者之間的差異很重要,因為它們的處理方式不同。
二進制文件
在正常計算機使用期間使用的大多數文件實際上是二進制文件,而不是文本。比如:Microsoft Word .doc文件實際上是一個二進制文件,即使它只有文本。
二進制文件的其他示例包括:
圖像文件,包括.jpg,.png,.bmp,.gif,等。
數據庫文件包括.mdb,.frm和.sqlite
文件,包括.doc,.xls,.pdf或者其他文件。
那是因為這些文件都有特殊處理的要求,需要特定類型的軟件來打開它。例如,您需要Excel來打開.xls文件,並使用數據庫程序來打開.sqlite文件。
文本文件
一方面,沒有特定的編碼,可以通過沒有任何特殊處理的標準文本編輯器打開。但是,每個文本文件都必須遵守一組規則:
文本文件必須是可讀的。他們可以(並且經常會)包含許多特殊編碼,尤其是在HTML或其他標記語言中,但您仍然可以說出它的含義
文本文件中的數據按行組織。在大多數情況下,每一行都是一個獨特的元素,無論是指令行還是命令。
此外,文本文件在每行的末尾都有一個看不見的字符,這使文本編輯器知道應該有一個新行。通過編程與這些文件交互時,您可以利用該字符。在Python中,它用“ n” 表示。
在哪裡可以找到Python的文件I / O工具
在Python中工作時,您不必擔心導入任何特定的外部庫來處理文件。Python附帶有“文件庫”,文件I / O工具和實用程序是核心語言的內置部分。
但是在其他語言(如C ++)中,要處理文件,您必須通過包含正確的頭文件來啟用文件I / O工具#include fstream。如果您使用Java編寫代碼,則需要使用該import java.io.*語句。
使用Python,就沒有必要這樣做,這是因為Python有一組內置函數,可以處理讀取和寫入文件所需的所有內容。
python讀寫文件
讀文件
1)使用open()方法打開文件,返回一個文件對象
原型:open(file, mode=’r’, buffering=None, encoding=None, errors=None, newline=None, closefd=True)
舉例:f = open(‘test.txt’, ‘r’)
test.txt表示文件路徑(包含文件名,這個file參數可以是絕對或者相對路徑)
r表示是讀文本文件,rb是讀二進制文本文件。(這個mode參數默認值就是r)
2)使用close()方法關閉文件
f.close()
打開後的文件必須關閉,因為文件對象會佔用系統資源,系統打開文件數量也就有限了
3)打開文件時的異常處理
f=open(‘test.txt’, ‘r’)
f.read()
f.close()
FileNotFoundError: [Errno 2] No such file or directory: ‘test.txt’
文件讀寫時都有可能產生異常IOError(比如文件不存在),這樣其後面的f.read(),f.close()就不會調用。為保證無論是否異常都可以關閉文件,一般使用try … finally來處理:
try:
f = open(‘test.txt’, ‘r’)
f.read()
finally:
if f:
f.close()
但這種寫法過於繁瑣,所以Python引入了with語句來自動調用close()方法:
with open(‘test.txt’, ‘r’) as f:
f.read()
4)讀文件 – read()、readline() 和 readlines()
read() 一次讀取整個文件,它通常用於將文件內容放到一個字符串變量中。如果文件過大,內存不夠,可以通過反覆調用read(size)方法,每次最多讀取size個字節的內容。
readline() 一次讀取文件中一行內容,可反覆調用
readlines() 一次讀取所有內容並按行返回列表,該列表可以由for … in … 結構再進一步處理。
特別注意:
這三種方法是把每行末尾的’\n’也讀進來了,如有需要就得我們手動去掉’\n’
with open(‘test.txt’, ‘r’) as f:
list = f.readlines()
for i in range(0, len(list)):
list[i] = list[i].rstrip(‘\n’)
寫文件
1)寫文件和讀文件是一樣的,唯一區別是open文件時,傳入標識符不同,即’w’或者’wb’表示寫文本文件或寫二進制文件
f = open(‘test.txt’, ‘w’)
f = open(‘test.txt’, ‘wb’)
f = open(‘test.txt’, ‘a’)
f.close()
特別注意:
1. 如果沒有這個文件,會自動創建一個新文件;如果有,就會先把原文件的內容清空再寫入;若不想清空原來的內容而是直接在後面追加新的內容,就用’a’這個模式
2. 寫文件,操作系統往往不會立刻把數據寫入磁盤,而是放到內存緩存起來,空閑的時候再慢慢寫入。只有調用close()方法時,操作系統才保證把沒有寫入的數據全部寫入磁盤。忘記調用close()的後果是數據可能只寫了一部分到磁盤,剩下的丟失了。
2)寫文件 – write()、writelines()
write()方法和read()、readline()方法對應,是將字符串寫入到文件中。
writelines()方法和readlines()方法對應,也是針對 列表 的操作。它接收一個 字符串列表 作為參數,將他們寫入到文件中。
特別注意:
換行符不會自動的加入,需要顯式的加入換行符。
f = open(‘test.txt’, ‘w’)
f.writelines([“111\n”, “222\n”, “333\n”])
補充說明:
1)對於非默認編碼(utf-8)的文件,需要open時添加encording參數,選擇對應的編碼方式
2)r+, w+, a+,可讀可寫
3)seek()方法,移動文件指針
seek(offset[, whence]) ,offset是相對於某個位置的偏移量。位置由whence決定,默認whence=0,從開頭起;whence=1,從當前位置算起;whence=2相對於文件末尾移動,通常offset取負值。
python對文本文件的讀有哪些方法,寫有哪些方法?
1 文件讀取全文本操作
在一定場景下我們需要把文本全部內容讀取出來,進行處理。python提供三種函數讀取文件,分別是read readline readlines,
read():讀取文件的全部內容,加上參數可以指定讀取的字符。
readline():讀取文件的一行。
readlines():讀取文件的所有行到內存中。
不同場景下我們可以選擇不同函數對文件進行讀取。
1.1 方法一
file_name = input(“請輸入你要打開的文件的完整路徑及名稱”)
file= open(file_name, “r”)
txt=file.read()
# 全文本的處理
file.close()
使用read函數將文件中的內容全部讀取,放在字符串變量txt中。這樣操作適合於文本較小,處理簡單的情況,當文件較大時,這種方式處理時不合適的。一次性讀取較大的文件到內存中,會耗費較多的時間和資源。這時候分批處理效果更好。
1.2 方法二
file_name = input(“請輸入你要打開的文件的完整路徑及名稱”)
file= open(file_name, “r”)
txt= file.read(4)
# 文本的處理while txt != “”txt= file.read(4)
# 批量文本處理
file.close()
這種方法適合於分批處理文本信息,每次批量讀入,批量處理,不會對內存造成較大的壓力。
1.3 方法三
file_name = input(“請輸入你要打開的文件的完整路徑及名稱”)
file= open(file_name, “r”)for line infile.readlines():
# 處理每一行數據
file.close()
這種處理方式適合處理以行為分割特點的文本,並且文本較小,因為這種處理方式需要一次性把文件所有內容讀取到內存中。
1.4 方法四
file_name = input(“請輸入你要打開的文件的完整路徑及名稱”)
file= open(file_name, “r”) # 這裡的file時文件句柄for line infile:
# 處理每一行數據
file.close()
這種方式和方法三中的區別是分行讀入,逐行處理,不會一次性把文件所有內容都讀入到內存中,對一些大文件的處理是很有效的。
2 文件寫入文本操作
文件寫入有兩種寫入函數和一種輔助支持。
write():向文件中寫入一個字符或者字節流
writelines():將一個元素全為字符串的列表寫入到文件中 需要注意的是,writelines寫入列表元素的時候會把列表元素的內容拼接到一起寫入,不會有換行和空格 。
seek(): 輔助寫入函數offset偏移量參數代表含義如下
0 – 文件開頭
1 – 當前位置
2 – 文件結尾
2.1 方法一
file_name = input(“output.txt”, “w+”)
text= “hello world!”file_name.write(text)
file.close()
2.2 方法二
file_name = input(“output.txt”, “w+”)
list= [“中午”,”早上”,”晚上”]
file_name.writelines(list)for line infile:
# 讀取寫入的數據,這時候發現是沒有任何內容的
file.close()
我們增加一行代碼就可以讀取到寫入的文件內容,利用seek()函數調整寫操作指針的位置,可以實現寫操作之後的正常讀取。
file_name = input(“output.txt”, “w+”)
list= [“中午”,”早上”,”晚上”]
file_name.readlines(list)
file_name.seek(0) # 調整寫的指針到文件的開始位置for line infile:
# 讀取寫入的數據,這時候會讀出一行寫入的數據。
file.close()
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/183243.html