python中文問題研究,python研究的問題

本文目錄一覽：

1、python中文亂碼解決
2、如何解決python 打印中文出錯的問題
3、如何利用Python對中文進行分詞處理
4、如何正確解決Python中的中文編碼問題
5、python中中文編碼的問題

python中文亂碼解決

windows下的文件路徑，cmd窗口等默認編碼都是gbk

但在windows下編寫python程序的時候，我們一般採用的編碼是utf-8

二者不一致是導致亂碼的根本原因！

在pycharm下，為了中文不亂碼，那麼需要注意一下幾個方面：

一、每一個源程序文件頭部，需要加上

#-*-coding:utf-8;-*-

這樣就沒有亂碼了

如何解決python 打印中文出錯的問題

解決python打印中文出錯的方法：

如果使用的是python2的話，需要在.py文件第一行加入“#coding=utf-8”，然後使用“print(“中文”)”的方式打印中文

示例如下：

執行結果：

python3直接使用“print(“中文”)”語句就可以了

示例如下：

執行結果：

更多Python知識，請關註：Python自學網！！

如何利用Python對中文進行分詞處理

python做中文分詞處理主要有以下幾種：結巴分詞、NLTK、THULAC

1、fxsjy/jieba

結巴的標語是：做最好的 Python 中文分詞組件，或許從現在來看它沒做到最好，但是已經做到了使用的人最多。結巴分詞網上的學習資料和使用案例比較多，上手相對比較輕鬆，速度也比較快。

結巴的優點：

支持三種分詞模式

支持繁體分詞

支持自定義詞典

MIT 授權協議

2、THULAC：一個高效的中文詞法分析工具包

前兩天我在做有關於共享單車的用戶反饋分類，使用jieba分詞一直太過零散，分類分不好。後來江兄給我推薦了THULAC：由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包。THULAC的接口文檔很詳細，簡單易上手。

THULAC分詞的優點：

能力強。利用規模最大的人工分詞和詞性標註中文語料庫（約含5800萬字）訓練而成，模型標註能力強大。

準確率高。該工具包在標準數據集Chinese Treebank（CTB5）上分詞的F1值可達97.3％，詞性標註的F1值可達到92.9％

速度較快。同時進行分詞和詞性標註速度為300KB/s，每秒可處理約15萬字。只進行分詞速度達到1.3MB/s，速度比jieba慢

Python 解決中文編碼問題基本可以用以下邏輯：

utf8（輸入） —— unicode（處理） —— （輸出）utf8

Python 裡面處理的字符都是都是unicode 編碼，因此解決編碼問題的方法是把輸入的文本（無論是什麼編碼）解碼為（decode）unicode編碼，然後輸出時再編碼（encode）成所需編碼。

由於處理的一般為txt 文檔，所以最簡單的方法，是把txt 文檔另存為utf-8 編碼，然後使用Python 處理的時候解碼為unicode（sometexts.decode(‘utf8’)），輸出結果回txt 的時候再編碼成utf8（直接用str() 函數就可以了）。

如何正確解決Python中的中文編碼問題

import time

print u”這是一個測試” #字符串前的u為避免Python CMD運行亂碼

s=raw_input(“請輸入內容:”.decode(‘utf-8’).encode(‘gbk’)) #.decode().encode()同樣為避免Python CMD運行亂碼

print u”輸入的內容是：”,s

time.sleep(5) #延時關閉窗口（5秒）

這是一個2.7版本輸入輸出的測試腳本，中文輸入輸出都沒問題，你可以試試。

python中中文編碼的問題

ls=[‘\xe4\xb8\xad\xe6\x96\x87’]

print ‘\n’.join(ls)

把list中的字符串用換行連接成新字符串再打印

如果list中不全是字符串，手動轉換成字符串

print ‘\n’.join(str(a) for a in ls)

ls是list變量名

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/206257.html