python處理中文與英文（python中英文字符和中文字符）

1、如何用 Python 中的 NLTK 對中文進行分析和處理
2、python 格式化帶中文等字符與純英文顯示串位的問題
3、如何解決Python中文問題

最近正在用nltk 對中文網絡商品評論進行褒貶情感分類，計算評論的信息熵（entropy）、互信息（point mutual information）和困惑值（perplexity）等（不過這些概念我其實也還理解不深…只是nltk 提供了相應方法）。

我感覺用nltk 處理中文是完全可用的。其重點在於中文分詞和文本表達的形式。

中文和英文主要的不同之處是中文需要分詞。因為nltk 的處理粒度一般是詞，所以必須要先對文本進行分詞然後再用nltk 來處理（不需要用nltk 來做分詞，直接用分詞包就可以了。嚴重推薦結巴分詞，非常好用）。

中文分詞之後，文本就是一個由每個詞組成的長數組：[word1, word2, word3…… wordn]。之後就可以使用nltk 裏面的各種方法來處理這個文本了。比如用FreqDist 統計文本詞頻，用bigrams 把文本變成雙詞組的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。

再之後就可以用這些來計算文本詞語的信息熵、互信息等。

再之後可以用這些來選擇機器學習的特徵，構建分類器，對文本進行分類（商品評論是由多個獨立評論組成的多維數組，網上有很多情感分類的實現例子用的就是nltk 中的商品評論語料庫，不過是英文的。但整個思想是可以一致的）。

另外還有一個困擾很多人的Python 中文編碼問題。多次失敗後我總結出一些經驗。

Python 解決中文編碼問題基本可以用以下邏輯：

utf8（輸入） —— unicode（處理） —— （輸出）utf8

Python 裏面處理的字符都是都是unicode 編碼，因此解決編碼問題的方法是把輸入的文本（無論是什麼編碼）解碼為（decode）unicode編碼，然後輸出時再編碼（encode）成所需編碼。

由於處理的一般為txt 文檔，所以最簡單的方法，是把txt 文檔另存為utf-8 編碼，然後使用Python 處理的時候解碼為unicode（sometexts.decode(‘utf8’)），輸出結果回txt 的時候再編碼成utf8（直接用str() 函數就可以了）。

對字符串中的每個字符判斷一下是不是ascii碼就是了，如果不是很大量的數據，效率也還好啦，

像這樣的用string.rjust string.ljust比較好吧

python的中文問題一直是困擾新手的頭疼問題，Python的發行版至今尚未包括任何中文支持模塊。當然，幾乎可以確定的是，在將來的版本中，python會徹底解決此問題，不用我們這麼麻煩了。筆者使用的是2.5版本。Python的版本可以通過調用sys模塊的sys.version查看。在幾個月的學習中，主要遇到以下問題：

1. print打印中文的問題：

在編輯器中輸入一段測試代碼：

s=』測試』

print s

運行結果如下：

Non-ASCII character ‘\xb2’ in file c:\Documents and Settings\Administrator\桌面\2.py on line 1, but no encoding declared; see for details: 2.py, line 1, pos 0

原因是如果文件里有非ASCII字符，需要指定編碼聲明。把2.py文件的編碼重新改為utf-8，並加上編碼聲明：

# -*- coding: utf-8 -*-

s=』測試』

print s

運行後可以正確打印中文。

2.中文路徑的問題。

在D盤下保存一個名字為『中文.txt『的文件。運行如下測試代碼：

# -*- coding: utf-8 -*-

f=open(‘D:\\中文.txt’, ‘r’)

print f.read()

運行結果如下：

IOError: [Errno 2] No such file or directory: ‘D:\\\xe4\xb8\xad\xe6\x96\x87.txt’

字符串有很多的編碼，不同的系統和平台有各自的編碼，為了實現系統或平台之間的信息交互可能需要編碼轉換。這裡只需要先使用UNICODE編碼一下，這樣再讀取中文路徑就不會有問題了：

複製代碼

# -*- coding: utf-8 -*-

path=’D:\\中文.txt’

spath=unicode(path , “utf8”)

f=open(spath,’r’)

print f.read()

複製代碼

然後就可以正確顯示文件內容

總結：

所有的中文顯示問題都可以歸結為編碼問題，遇到其他類似的問題，那隻能仔細看文檔，靠你的經驗，靠你多做測試。而且根據python所報出來的錯誤一般也可以判斷出來。那麼當發現需要編碼轉換時，剩下的就是如何正確進行碼制轉換。

為了正確處理多語言文本，Python在2.0版後引入了Unicode字符串。從那時起，Python語言中的字符串就分為兩種：一種是2.0版之前就已經使用很久的傳統Python字符串，一種則是新的Unicode字符串。在Python語言中，一般的解決辦法是使用unicode()內建函數對一個傳統Python字符串進行「解碼」，得到一個Unicode字符串，然後又通過Unicode字符串的encode()方法對這個Unicode字符串進行「編碼」，將其「編碼」成為傳統Python字符串。

原創文章，作者：BPSXD，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/126290.html

python處理中文與英文（python中英文字符和中文字符）

相關推薦

發表回復