python文本讀寫及編碼檢測,python讀文件編碼

本文目錄一覽：

1、python 讀取文本里有多種編碼
2、Python讀取文件內容的方法有幾種
3、python3讀文件編碼錯誤怎麼辦
4、Python中的文件讀寫-理論知識
5、python讀寫文件
6、python對文本文件的讀有哪些方法,寫有哪些方法?

python 讀取文本里有多種編碼

讀取ANSI編碼文件

建立一個文件test.txt，文件格式用ANSI，內容為:

abc中文

用Python來讀取

# coding=gbk

print open(“Test.txt”).read()

結果：abc中文

讀取utf-8編碼文件（無BOM）

把文件格式改成UTF-8：

結果：abc涓枃

顯然，這裡需要解碼：

# -*- coding: utf-8 -*-

import codecs

print open(“Test.txt”).read().decode(“utf-8”)

結果：abc中文

讀取utf-8編碼文件（有BOM）

某些軟件在保存一個以UTF-8編碼的文件時，默認會在文件開始的地方插入三個不可見的字符（0xEF 0xBB 0xBF，即BOM）。在有些軟件可以控制是否插入BOM。如果在有BOM的情況下，在讀取時需要自己去掉這些字符，python中的codecs module定義了這個常量：

Python讀取文件內容的方法有幾種

python讀取文本文件內容的方法主要有三種：read()、readline()、readlines()。

第一種：read()

read()是最簡單的一種方法，一次性讀取文件的所有內容放在一個大字符串中，即內存中。

read()的好處：方便、簡單，一次性讀出文件放在一個大字符串中，速度最快。

read()的壞處：文件過大的時候，佔用內存會過大。

第二種：readline()

readline()逐行讀取文本，結果是一個list。

readline()的好處：佔用內存小，逐行讀取。

readline()的壞處：逐行讀取，速度比較慢。

第三種：readlines()

readlines()一次性讀取文本的所有內容，結果是一個list。

readlines()的好處：一次性讀取文本內容，速度比較快。

readlines()的壞處：隨着文本的增大，佔用內存會越來越多。

python3讀文件編碼錯誤怎麼辦

在python3中系統默認編碼是unicode,讀取文件經常會編碼錯誤導致報錯。

首先先確認要讀取文件的編碼，可這樣操作：

記事本打開文本文件，點擊“文件”-“另存為”查看編碼:

如圖顯示編碼就是當前的文件編碼，這裡是“utf-8”。

2. 要想用指定編碼打開，使用codecs模塊

安裝模塊pip命令:

pip install codecs

3. 使用codecs模塊，例如讀取test文件內容並打印：

import codecs

f=codecs.open(r”test.txt”,”r”,”gbk”)

print(f.read())

f.close()

（示例的文件是ANSI所以使用GBK讀取）

以上就可以正確讀取想要的文件了

Python中的文件讀寫-理論知識

Python處理兩種不同類型的文件：二進制文件和文本文件。了解兩者之間的差異很重要，因為它們的處理方式不同。

二進制文件

在正常計算機使用期間使用的大多數文件實際上是二進制文件，而不是文本。比如：Microsoft Word .doc文件實際上是一個二進制文件，即使它只有文本。

二進制文件的其他示例包括：

圖像文件，包括.jpg，.png，.bmp，.gif，等。

數據庫文件包括.mdb，.frm和.sqlite

文件，包括.doc，.xls，.pdf或者其他文件。

那是因為這些文件都有特殊處理的要求，需要特定類型的軟件來打開它。例如，您需要Excel來打開.xls文件，並使用數據庫程序來打開.sqlite文件。

文本文件

一方面，沒有特定的編碼，可以通過沒有任何特殊處理的標準文本編輯器打開。但是，每個文本文件都必須遵守一組規則：

文本文件必須是可讀的。他們可以（並且經常會）包含許多特殊編碼，尤其是在HTML或其他標記語言中，但您仍然可以說出它的含義

文本文件中的數據按行組織。在大多數情況下，每一行都是一個獨特的元素，無論是指令行還是命令。

此外，文本文件在每行的末尾都有一個看不見的字符，這使文本編輯器知道應該有一個新行。通過編程與這些文件交互時，您可以利用該字符。在Python中，它用“ n” 表示。

在哪裡可以找到Python的文件I / O工具

在Python中工作時，您不必擔心導入任何特定的外部庫來處理文件。Python附帶有“文件庫”，文件I / O工具和實用程序是核心語言的內置部分。

但是在其他語言（如C ++）中，要處理文件，您必須通過包含正確的頭文件來啟用文件I / O工具#include fstream。如果您使用Java編寫代碼，則需要使用該import java.io.*語句。

使用Python，就沒有必要這樣做，這是因為Python有一組內置函數，可以處理讀取和寫入文件所需的所有內容。

python讀寫文件

讀文件

1）使用open()方法打開文件，返回一個文件對象

原型：open(file, mode=’r’, buffering=None, encoding=None, errors=None, newline=None, closefd=True)

舉例：f = open(‘test.txt’, ‘r’)

test.txt表示文件路徑(包含文件名，這個file參數可以是絕對或者相對路徑)

r表示是讀文本文件，rb是讀二進制文本文件。（這個mode參數默認值就是r）

2）使用close()方法關閉文件

f.close()

打開後的文件必須關閉，因為文件對象會佔用系統資源，系統打開文件數量也就有限了

3）打開文件時的異常處理

f=open(‘test.txt’, ‘r’)

f.read()

f.close()

FileNotFoundError: [Errno 2] No such file or directory: ‘test.txt’

文件讀寫時都有可能產生異常IOError(比如文件不存在)，這樣其後面的f.read()，f.close()就不會調用。為保證無論是否異常都可以關閉文件，一般使用try … finally來處理：

try:

f = open(‘test.txt’, ‘r’)

f.read()

finally:

if f:

f.close()

但這種寫法過於繁瑣，所以Python引入了with語句來自動調用close()方法：

with open(‘test.txt’, ‘r’) as f:

f.read()

4）讀文件 – read()、readline() 和 readlines()

read() 一次讀取整個文件，它通常用於將文件內容放到一個字符串變量中。如果文件過大，內存不夠，可以通過反覆調用read(size)方法，每次最多讀取size個字節的內容。

readline() 一次讀取文件中一行內容，可反覆調用

readlines() 一次讀取所有內容並按行返回列表，該列表可以由for … in … 結構再進一步處理。

特別注意：

這三種方法是把每行末尾的’\n’也讀進來了，如有需要就得我們手動去掉’\n’

with open(‘test.txt’, ‘r’) as f:

list = f.readlines()

for i in range(0, len(list)):

list[i] = list[i].rstrip(‘\n’)

寫文件

1）寫文件和讀文件是一樣的，唯一區別是open文件時，傳入標識符不同，即’w’或者’wb’表示寫文本文件或寫二進制文件

f = open(‘test.txt’, ‘w’)

f = open(‘test.txt’, ‘wb’)

f = open(‘test.txt’, ‘a’)

f.close()

特別注意：

1. 如果沒有這個文件，會自動創建一個新文件；如果有，就會先把原文件的內容清空再寫入；若不想清空原來的內容而是直接在後面追加新的內容，就用’a’這個模式

2. 寫文件，操作系統往往不會立刻把數據寫入磁盤，而是放到內存緩存起來，空閑的時候再慢慢寫入。只有調用close()方法時，操作系統才保證把沒有寫入的數據全部寫入磁盤。忘記調用close()的後果是數據可能只寫了一部分到磁盤，剩下的丟失了。

2）寫文件 – write()、writelines()

write()方法和read()、readline()方法對應，是將字符串寫入到文件中。

writelines()方法和readlines()方法對應，也是針對列表的操作。它接收一個字符串列表作為參數，將他們寫入到文件中。

特別注意：

換行符不會自動的加入，需要顯式的加入換行符。

f = open(‘test.txt’, ‘w’)

f.writelines([“111\n”, “222\n”, “333\n”])

補充說明：

1）對於非默認編碼(utf-8)的文件，需要open時添加encording參數，選擇對應的編碼方式

2）r+, w+, a+，可讀可寫

3）seek()方法，移動文件指針

seek(offset[, whence]) ，offset是相對於某個位置的偏移量。位置由whence決定，默認whence=0，從開頭起；whence=1，從當前位置算起；whence=2相對於文件末尾移動，通常offset取負值。

python對文本文件的讀有哪些方法,寫有哪些方法?

1 文件讀取全文本操作

在一定場景下我們需要把文本全部內容讀取出來，進行處理。python提供三種函數讀取文件，分別是read readline readlines，

read()：讀取文件的全部內容，加上參數可以指定讀取的字符。

readline()：讀取文件的一行。

readlines()：讀取文件的所有行到內存中。

不同場景下我們可以選擇不同函數對文件進行讀取。

1.1 方法一

file_name = input(“請輸入你要打開的文件的完整路徑及名稱”)

file= open(file_name, “r”)

txt=file.read()

# 全文本的處理

file.close()

使用read函數將文件中的內容全部讀取，放在字符串變量txt中。這樣操作適合於文本較小，處理簡單的情況，當文件較大時，這種方式處理時不合適的。一次性讀取較大的文件到內存中，會耗費較多的時間和資源。這時候分批處理效果更好。

1.2 方法二

file_name = input(“請輸入你要打開的文件的完整路徑及名稱”)

file= open(file_name, “r”)

txt= file.read(4)

# 文本的處理while txt != “”txt= file.read(4)

# 批量文本處理

file.close()

這種方法適合於分批處理文本信息，每次批量讀入，批量處理，不會對內存造成較大的壓力。

1.3 方法三

file_name = input(“請輸入你要打開的文件的完整路徑及名稱”)

file= open(file_name, “r”)for line infile.readlines():

# 處理每一行數據

file.close()

這種處理方式適合處理以行為分割特點的文本，並且文本較小，因為這種處理方式需要一次性把文件所有內容讀取到內存中。

1.4 方法四

file_name = input(“請輸入你要打開的文件的完整路徑及名稱”)

file= open(file_name, “r”) # 這裡的file時文件句柄for line infile:

# 處理每一行數據

file.close()

這種方式和方法三中的區別是分行讀入，逐行處理，不會一次性把文件所有內容都讀入到內存中，對一些大文件的處理是很有效的。

2 文件寫入文本操作

文件寫入有兩種寫入函數和一種輔助支持。

write()：向文件中寫入一個字符或者字節流

writelines()：將一個元素全為字符串的列表寫入到文件中需要注意的是，writelines寫入列表元素的時候會把列表元素的內容拼接到一起寫入，不會有換行和空格。

seek()：輔助寫入函數offset偏移量參數代表含義如下

0 – 文件開頭

1 – 當前位置

2 – 文件結尾

2.1 方法一

file_name = input(“output.txt”, “w+”)

text= “hello world!”file_name.write(text)

file.close()

2.2 方法二

file_name = input(“output.txt”, “w+”)

list= [“中午”,”早上”,”晚上”]

file_name.writelines(list)for line infile:

# 讀取寫入的數據，這時候發現是沒有任何內容的

file.close()

我們增加一行代碼就可以讀取到寫入的文件內容，利用seek()函數調整寫操作指針的位置，可以實現寫操作之後的正常讀取。

file_name = input(“output.txt”, “w+”)

list= [“中午”,”早上”,”晚上”]

file_name.readlines(list)

file_name.seek(0) # 調整寫的指針到文件的開始位置for line infile:

# 讀取寫入的數據，這時候會讀出一行寫入的數據。

file.close()

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/183243.html

python文本讀寫及編碼檢測,python讀文件編碼

本文目錄一覽：

python 讀取文本里有多種編碼

Python讀取文件內容的方法有幾種

python3讀文件編碼錯誤怎麼辦

Python中的文件讀寫-理論知識

python讀寫文件

python對文本文件的讀有哪些方法,寫有哪些方法?

相關推薦

發表回復