關於python抓聯想詞練習的信息

本文目錄一覽：

1、Python實現猜單詞遊戲
2、python怎麼提取關鍵詞
3、自學Python能學會嗎？
4、學會Python需要多長時間?
5、學Python應該怎麼學
6、python如何實現提取文本中所有連續的詞語

Python實現猜單詞遊戲

猜單詞遊戲是一種簡單的遊戲，

計算機從指定單詞列表中抽取一個單詞，通過算法，把單詞的字母順序打亂，然後輸出給玩家猜測。

玩家根據亂序的字母，組合猜測輸入正確的單詞。計算機確定是否猜測正確。

使用元組或列表構建待猜測的英文單詞庫列表WORDS，使用random模塊的choice函數從單詞的元組中隨機抽取一個英文單詞word。

然後把該英文單詞的字母亂序排列

方法：每次隨機抽取一個位置的字符放入亂序的jumble字符串中，並從原word中刪除該字符

遊戲一開始先顯示亂序後的字符串jumble（語義化：混亂），並提示用戶輸入猜測的結果，如果錯誤，提示繼續輸入，直至輸入正確。猜對之後，可以詢問是否繼續遊戲。遊戲也可以通過Ctr1+C強制中斷運行。

讀者也可以擴展程序，例如從文件中讀入單詞列表，記錄遊戲玩家的得分情況等。

word-guess.py

程序運行結果如下：

python怎麼提取關鍵詞

你好，那個r’.*?(‘+ lste +’).*?‘ 會吧你這個關鍵字前面和後面的文字都匹配了，所以當你的那個關鍵字多次出現的時候，就會報那個重複出現的錯了。

你直接

hh = re.findall(lste, gg)就可以了呀？

或者是還有什麼需要匹配的東西，我看你後面好像要將結果連接起來，但是你匹配出來的都是關鍵字，直接連接的話，其實就是多個關鍵字的拼接了。

自學Python能學會嗎？

python自學完全沒有問題的。

首先，你必須對自己有信心，編寫程序其實沒有太高的技術含量，你只需要遵守編程語言的語法規範，然後在這個基礎上去實現你想要的功能。

買一本靠譜的教材，或者在網上找一些教程，把教材的內容看明白，然後把例子程序輸入電腦運行，接着嘗試修改一下，看看會有什麼變化，把一套根據自身的知識基礎和能力特點來選擇一個崗位類型，目前採用Python的崗位類型可以分成三大類，分別是算法崗、研發崗和應用開發崗，不同崗位對於知識結構的要求有所不同。

從近幾年的人才需求情況來看，開發崗的人才需求量相對大一些，而且對於開發人員的整體要求也並不算高。教材學完之後，你就大概知道怎麼樣用python語言寫程序了。

學會Python需要多長時間?

一周或者一個月。

如果完全靠自己自學，又是從零基礎開始學習Python的情況下，按照每個人的學習和理解能力的不同，我認為大致上需要半年到一年半左右的時間。

當然了，Python學習起來還是比較簡單的，如果有其他編程語言經驗，入門Python還是非常快的，花1-2個月左右的時間學完基礎，就可以自己編寫一些小的程序練練手了，5-6個月的時間就可以上手做項目了。

從一定程度上來說，一些零基礎的初學者想要利用兩個月的時間掌握好Python是不太可能的，學習完Python後想要應聘相對應的工作崗位，即便是選擇最快的學習方式也是很難實現的，無法快速實現就業。

學Python應該怎麼學

1）學好python的第一步，就是馬上到

網站上下載一個python版本。我建議初學者，不要下載具有IDE功能的集成開發環境，比如Eclipse插件等。

2）下載完畢後，就可以開始學習了。學習過程中，我建議可以下載一些python的學習文檔，比如《dive into python》，《OReilly

– Learning Python》等等。通過學習語法，掌握python中的關鍵字語法，函數語法，數學表達式等等

3）學完了基本語法後，就可以進行互動式學習了。python具備很好的交互學習模式，對於書本上的例子我們可以通過交互平台進行操練，通過練習加深印象，達到學習掌握的目的。

4）通過以上三個步驟的學習後，我們大致掌握了python的常用方法、關鍵字用法以及函數語法等。接下去的學習上，我們就可以着手學習常用模塊的使用，

比如os,os.path,sys,string模塊等。我們可以在交互環境中先熟悉使用其中的函數，如果遇到函數的使用上的問題，可以參考python

安裝後的自帶chm幫助文件。

5）為了更好得掌握python，我們的學習不能只是停留在學習一些語法或者api階段。在此階段中，我們可以

嘗試用python解決我們項目中遇到的一

些問題，如果項目不是用python開發的，那我們可以想想能不能用python製作一些項目組可以使用的一些工具（utility），通過這些工具簡化

項目組成員的任務，提高我們的工作效率。如果沒有項目，我們也可以自己找些題目來自己練習練習。

6）經過以上鍛煉後，我們的python知識

水平肯定是越來越高。接下去的學習，我們就要更上一層樓。為了學以致用，真正能應用於項目開發或產品開發，我

們還必須學習企業應用開發中必須要掌握的網絡和數據庫知識。在此的學習就不光是python語言本身的學習了，如果之前沒有學習和掌握很網絡和數據庫知

識，在此階段我們可以藉此機會補習一把。

7）在此，我想我們對python的使用以及信手拈來了，即使忘了api的用法，我們也可以在短時間

內通過查看文檔來使用api。那麼接下去，我們要學習

什麼呢?那就是設計能力，在學習設計能力的過程中，如果對類等面向對象的概念不清楚的，在此階段也可以學習或加以鞏固

python如何實現提取文本中所有連續的詞語

經常需要通過Python代碼來提取文本的關鍵詞，用於文本分析。而實際應用中文本量又是大量的數據，如果使用單進程的話，效率會比較低，因此可以考慮使用多進程。

python的多進程只需要使用multiprocessing的模塊就行，如果使用大量的進程就可以使用multiprocessing的進程池–Pool，然後不同進程處理時使用apply_async函數進行異步處理即可。

實驗測試語料：message.txt中存放的581行文本，一共7M的數據，每行提取100個關鍵詞。

代碼如下：

[python] view plain copy

#coding:utf-8

import sys

reload(sys)

sys.setdefaultencoding(“utf-8”)

from multiprocessing import Pool,Queue,Process

import multiprocessing as mp

import time,random

import os

import codecs

import jieba.analyse

jieba.analyse.set_stop_words(“yy_stop_words.txt”)

def extract_keyword(input_string):

#print(“Do task by process {proc}”.format(proc=os.getpid()))

tags = jieba.analyse.extract_tags(input_string, topK=100)

#print(“key words:{kw}”.format(kw=” “.join(tags)))

return tags

#def parallel_extract_keyword(input_string,out_file):

def parallel_extract_keyword(input_string):

#print(“Do task by process {proc}”.format(proc=os.getpid()))

tags = jieba.analyse.extract_tags(input_string, topK=100)

#time.sleep(random.random())

#print(“key words:{kw}”.format(kw=” “.join(tags)))

#o_f = open(out_file,’w’)

#o_f.write(” “.join(tags)+”\n”)

return tags

if __name__ == “__main__”:

data_file = sys.argv[1]

with codecs.open(data_file) as f:

lines = f.readlines()

f.close()

out_put = data_file.split(‘.’)[0] +”_tags.txt”

t0 = time.time()

for line in lines:

parallel_extract_keyword(line)

#parallel_extract_keyword(line,out_put)

#extract_keyword(line)

print(“串行處理花費時間{t}”.format(t=time.time()-t0))

pool = Pool(processes=int(mp.cpu_count()*0.7))

t1 = time.time()

#for line in lines:

#pool.apply_async(parallel_extract_keyword,(line,out_put))

#保存處理的結果，可以方便輸出到文件

res = pool.map(parallel_extract_keyword,lines)

#print(“Print keywords:”)

#for tag in res:

#print(” “.join(tag))

pool.close()

pool.join()

print(“並行處理花費時間{t}s”.format(t=time.time()-t1))

運行：

python data_process_by_multiprocess.py message.txt

message.txt是每行是一個文檔，共581行，7M的數據

運行時間：

不使用sleep來掛起進程,也就是把time.sleep(random.random())注釋掉，運行可以大大節省時間。

原創文章，作者：GUAY，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/138917.html