包含python實驗報告七的詞條

本文目錄一覽：

1、python數據挖掘——文本分析
2、python程序算一元二次方程的實驗報告
3、Python主要內容學的是什麼？
4、Python爬蟲（七）數據處理方法之JSON
5、python請用遞歸算法編程解決漢諾塔問題在線等

python數據挖掘——文本分析

作者 | zhouyue65

來源 | 君泉計量

文本挖掘：從大量文本數據中抽取出有價值的知識，並且利用這些知識重新組織信息的過程。

一、語料庫（Corpus）

語料庫是我們要分析的所有文檔的集合。

二、中文分詞

2.1 概念：

中文分詞（Chinese Word Segmentation）：將一個漢字序列切分成一個一個單獨的詞。

eg：我的家鄉是廣東省湛江市–我/的/家鄉/是/廣東省/湛江市

停用詞（Stop Words）：

數據處理時，需要過濾掉某些字或詞

√泛濫的詞，如web、網站等。

√語氣助詞、副詞、介詞、連接詞等，如的，地，得；

2.2 安裝Jieba分詞包：

最簡單的方法是用CMD直接安裝：輸入pip install jieba，但是我的電腦上好像不行。

後來在這裡：下載了jieba0.39解壓縮後放在Python36Libsite-packages裡面，然後在用cmd，pip install jieba 就下載成功了，不知道是是什麼原因。

然後我再anaconda 環境下也安裝了jieba，先在Anaconda3Lib這個目錄下將jieba0.39的解壓縮文件放在裡面，然後在Anaconda propt下輸入 pip install jieba，如下圖：

2.3 代碼實戰：

jieba最主要的方法是cut方法：

jieba.cut方法接受兩個輸入參數:

1) 第一個參數為需要分詞的字符串

2）cut_all參數用來控制是否採用全模式

jieba.cut_for_search方法接受一個參數：需要分詞的字符串,該方法適合用於搜索引擎構建倒排索引的分詞，粒度比較細

注意：待分詞的字符串可以是gbk字符串、utf-8字符串或者unicode

jieba.cut以及jieba.cut_for_search返回的結構都是一個可迭代的generator，可以使用for循環來獲得分詞後得到的每一個詞語(unicode)，也可以用list(jieba.cut(…))轉化為list代碼示例( 分詞 )

輸出結果為：我愛

Python

工信處

女幹事

每月經過下屬科室都要親口

交代

24 口交換機等技術性器件的安裝

工作

分詞功能用於專業的場景：

會出現真武七截陣和天罡北斗陣被分成幾個詞。為了改善這個現象，我們用導入詞庫的方法。

但是，如果需要導入的單詞很多，jieba.add_word()這樣的添加詞庫的方法就不高效了。

我們可以用jieba.load_userdict(‘D:PDM2.2金庸武功招式.txt’)方法一次性導入整個詞庫，txt文件中為每行一個特定的詞。

2.3.1 對大量文章進行分詞

先搭建語料庫：

分詞後我們需要對信息處理，就是這個分詞來源於哪個文章。

四、詞頻統計

3.1詞頻（Term Frequency）：

某個詞在該文檔中出現的次數。

3.2利用Python進行詞頻統計

3.2.1 移除停用詞的另一種方法，加if判斷

代碼中用到的一些常用方法：

分組統計：

判斷一個數據框中的某一列的值是否包含一個數組中的任意一個值：

取反：（對布爾值）

四、詞雲繪製

詞雲（Word Cloud）：是對文本中詞頻較高的分詞，給與視覺上的突出，形成“關鍵詞渲染”，從而國旅掉大量的文本信息，使瀏覽者一眼掃過就可以領略文本的主旨。

4.1 安裝詞雲工具包

這個地址：，可以搜到基本上所有的Python庫，進去根據自己的系統和Python的版本進行下載即可。

在python下安裝很方便，在anaconda下安裝費了點勁，最終將詞雲的文件放在C:UsersAdministrator 這個目錄下才安裝成功。

五、美化詞雲（詞雲放入某圖片形象中）

六、關鍵詞提取

結果如下:

七、關鍵詞提取實現

詞頻（Term Frequency）：指的是某一個給定的詞在該文檔中出現的次數。

計算公式： TF = 該次在文檔中出現的次數

逆文檔頻率（Inverse Document Frequency）：IDF就是每個詞的權重，它的大小與一個詞的常見程度成反比

計算公式：IDF = log（文檔總數/（包含該詞的文檔數 – 1））

TF-IDF（Term Frequency-Inverse Document Frequency）：權衡某個分詞是否關鍵詞的指標，該值越大，是關鍵詞的可能性就越大。

計算公式：TF – IDF = TF * IDF

7.1文檔向量化

7.2代碼實戰

python程序算一元二次方程的實驗報告

我上數值分析時，做的一個GUI程序，解一元二次方程，多元一次方程組。具體的看源碼吧

Python主要內容學的是什麼？

第一步：Python開發基礎

Python全棧開發與人工智能之Python開發基礎知識學習內容包括：Python基礎語法、數據類型、字符編碼、文件操作、函數、裝飾器、迭代器、內置方法、常用模塊等。

第二步：Python高級編程和數據庫開發

Python全棧開發與人工智能之Python高級編程和數據庫開發知識學習內容包括：面向對象開發、Socket網絡編程、線程、進程、隊列、IO多路模型、Mysql數據庫開發等。

第三步：前端開發

Python全棧開發與人工智能之前端開發知識學習內容包括：Html、CSS、JavaScript開發、Jquerybootstrap開發、前端框架VUE開發等。

第四步：WEB框架開發

Python全棧開發與人工智能之WEB框架開發學習內容包括：Django框架基礎、Django框架進階、BBS+Blog實戰項目開發、緩存和隊列中間件、Flask框架學習、Tornado框架學習、Restful API等。

第五步：爬蟲開發

Python全棧開發與人工智能之爬蟲開發學習內容包括：爬蟲開發實戰。

第六步：全棧項目實戰

Python全棧開發與人工智能之全棧項目實戰學習內容包括：企業應用工具學習、CRM客戶關係管理系統開發、路飛學城在線教育平台開發等。

第七步：數據分析

Python全棧開發與人工智能之數據分析學習內容包括：金融量化分析。

第八步：人工智能

Python全棧開發與人工智能之人工智能學習內容包括：機器學習、數據分析、圖像識別、自然語言翻譯等。

第九步：自動化運維開發

Python全棧開發與人工智能之自動化運維開發學習內容包括：CMDB資產管理系統開發、IT審計+主機管理系統開發、分布式主機監控系統開發等。

第十步：高並發語言GO開發

Python全棧開發與人工智能之高並發語言GO開發學習內容包括：GO語言基礎、數據類型與文件IO操作、函數和面向對象、並發編程等。

Python爬蟲（七）數據處理方法之JSON

JSON 指的是 JavaScript 對象表示法（JavaScript Object Notation），是輕量級的文本數據交換格式，且具有自我描述性，更易理解。

JSON看起來像python類型（列表，字典）的字符串。

在之前的文章中，我們說到了怎麼用response的方法，獲取到網頁正確解碼後的字符串。如果還有不懂的，可以先閱讀 Python爬蟲（三）Requests庫。接下來以有道翻譯為例子，說說怎麼通過網頁解碼後的字符串，提取到翻譯結果。

再結合上述有道翻譯的例子，得到字典類型的返回結果，並提取出來翻譯結果。

將上述例子的dict_json換成str字符串，再寫入文本中。

執行完上述的程序，會得到一個fanyi.txt的文件，其結果如下：{“type”: “ZH_CN2EN”, “errorCode”: 0, “elapsedTime”: 1, “translateResult”: [[{“src”: “\u4eba\u751f\u82e6\u77ed\uff0c\u6211\u7528python”, “tgt”: “Life is too short, I use python”}]]}。這樣子的一份文檔，中文部分顯示的是二進制，且格式非常不利於閱讀，這並不是我們想要的結果。好在json.dumps()為我們提供的兩個方法，以幫助我們更好閱讀文檔。

1.ensure_ascii，能夠讓中文顯示成中文；

2.indent，能夠讓下一行在第一行的基礎上空格。

其用法如下：

python請用遞歸算法編程解決漢諾塔問題在線等

這是Python3系統自帶的一個例子，估計就是這個意思，本來他是6個盤子，按照你要求改成4個了。遞歸算法沒問題，描述也非常詳細；）

#!/usr/bin/env python3

from turtle import *

class Disc(Turtle):

def __init__(self, n):

Turtle.__init__(self, shape=”square”, visible=False)

self.pu()

self.shapesize(1.5, n*1.5, 2) # square–rectangle

self.fillcolor(n/6., 0, 1-n/6.)

self.st()

class Tower(list):

“Hanoi tower, a subclass of built-in type list”

def __init__(self, x):

“create an empty tower. x is x-position of peg”

self.x = x

def push(self, d):

d.setx(self.x)

d.sety(-150+34*len(self))

self.append(d)

def pop(self):

d = list.pop(self)

d.sety(150)

return d

def hanoi(n, from_, with_, to_):

if n 0:

hanoi(n-1, from_, to_, with_)

to_.push(from_.pop())

hanoi(n-1, with_, from_, to_)

def play():

onkey(None,”space”)

clear()

try:

hanoi(6, t1, t2, t3)

write(“press STOP button to exit”,

align=”center”, font=(“Courier”, 16, “bold”))

except Terminator:

pass # turtledemo user pressed STOP

def main():

global t1, t2, t3

ht(); penup(); goto(0, -225) # writer turtle

t1 = Tower(-250)

t2 = Tower(0)

t3 = Tower(250)

# make tower of 6 discs

for i in range(4,0,-1):

t1.push(Disc(i))

# prepare spartanic user interface ;-)

write(“press spacebar to start game”,

align=”center”, font=(“Courier”, 16, “bold”))

onkey(play, “space”)

listen()

return “EVENTLOOP”

if __name__==”__main__”:

msg = main()

print(msg)

mainloop()

原創文章，作者：NPWSZ，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/128982.html