包含hmm的python实现的词条

本文目录一览：

1、Python hmmlearn中的混淆矩阵是怎么表示的
2、python中怎样处理汉语的同义词用结巴分词
3、Python 画好看的云词图

Python hmmlearn中的混淆矩阵是怎么表示的

hmmlearn这个库有三种模型，分别是Gaussian，Multinomial和GMMHMM。这三种模型对应的就是三种emission matrix（即混淆矩阵，也就是隐状态到观察态的概率）。Gaussian就是说混淆矩阵是一个高斯分布，即观察态是连续的。Multinomiual就是说混淆矩阵事一个Multibimiual distribution，即观察态势离散的。GMMHMM则是说混淆矩阵是遵循gaussinan mixture 分布，也是连续的。

题主问如何把混淆矩阵输入到模型里面。首先你要确定你的混淆矩阵的类型。对于Gaussian类型，就是把你希望的 mean和variance值放到模型里面。我就直接把文档里面的例子搬过来，例子里是建立了一个高斯分布的隐马尔科夫模型。

import numpy as np

from hmmlearn import hmm

#一个隐马尔科夫模型由（p向量，状态转移矩阵，混淆矩阵）来定义。

startprob = np.array([0.6, 0.3, 0.1])

# 定义初始状态的概率

transmat = np.array([[0.7, 0.2, 0.1], [0.3, 0.5, 0.2], [0.3, 0.3, 0.4]])#定义转移矩阵的概率

means = np.array([[0.0, 0.0], [3.0, -3.0], [5.0, 10.0]])

#定义混淆矩阵的均值

covars = np.tile(np.identity(2), (3, 1, 1))# 定义混淆矩阵的方差

model = hmm.GaussianHMM(3, “full”, startprob, transmat)# 定义一个混淆矩阵为高斯分布的隐马尔科夫模型。这里‘full’的意思就是说你输入的方差矩阵每个元素都给出了，不是一个只是对角线上的元素为0的矩阵

model.means_ = means

model.covars_ = covars#把你希望的均值方差输入你定义的模型里面，到此你就把混淆矩阵输入进模型了

X, Z = model.sample(100)

对于Multinomial 和 GMM，我还没用，不过Multinomial应该是需要你自己手动输入隐状态到观察态的概率的，而GMM应该是和Gaussian类型类似，只是需要多输入一个权重因子。

对于第二个问题，covariance_type意思是你的混淆矩阵的covariance matrix是什么类型，比如若只是对角线上的元素不为0，则把covariance_type设为‘diag’。

python中怎样处理汉语的同义词用结巴分词

python中文分词：结巴分词

中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点：

基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法

安装（Linux环境）

下载工具包，解压后进入目录下，运行：python setup.py install

模式

默认模式，试图将句子最精确地切开，适合文本分析

全模式，把句子中所有的可以成词的词语都扫描出来，适合搜索引擎

接口

组件只提供jieba.cut 方法用于分词

cut方法接受两个输入参数：

第一个参数为需要分词的字符串

cut_all参数用来控制分词模式

待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

jieba.cut返回的结构是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(…))转化为list

实例

#! -*- coding:utf-8 -*-

import jieba

seg_list = jieba.cut(“我来到北京清华大学”, cut_all = True)

print “Full Mode:”, ‘ ‘.join(seg_list)

seg_list = jieba.cut(“我来到北京清华大学”)

print “Default Mode:”, ‘ ‘.join(seg_list)

Python 画好看的云词图

词云图是数据分析中比较常见的一种可视化手段。词云图，也叫文字云，是对文本中出现频率较高的关键词予以视觉化的展现，出现越多的词，在词云图中展示越显眼。词云图过滤掉大量低频低质的文本信息，因此只要一眼扫过文本就可领略文章主旨。

例如?上面这张图，看一眼就知道肯定是新华网的新闻。

那生成一张词云图的主要步骤有哪些？这里使用 Python 来实现，主要分三步：

首先是“结巴”中文分词 jieba 的安装。

对于英文文本，word_cloud 可以直接对文本源生成词云图。但是对中文的支持没有那么给力，所以需要先使用 jieba 对中文文本进行分词，把文章变成词语，然后再生成词云图。例如：

jieba.cut 分词：方法接受三个输入参数，sentence 需要分词的字符串；cut_all 用来控制是否采用全模式；HMM 用来控制是否使用 HMM 模型。

jieba.cut_for_search 分词：方法接受两个参数，sentence 需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。

jieba.analyse.textrank 使用 TextRank 算法从句子中提取关键词。

然后安装 wordcloud 词云图库。

如果执行上面命令后，显示 success，那么恭喜你，安装成功了。

我就遇到了 Failed building wheel for wordcloud 的错误。于是先安装 xcode-select, 再安装 wordcloud 即可（无需安装 Xcode）。

wordcloud 库把词云当作一个 WordCloud 对象，wordcloud.WordCloud() 代表一个文本对应的词云，可以根据文本中词语出现的频率等参数绘制词云，绘制词云的形状、尺寸和颜色。

1、首先导入文本数据并进行简单的文本处理

2、分词

3、设置遮罩

注意：

1、默认字体不支持中文，如果需要显示中文，需要设置中文字体，否则会乱码。

2、设置遮罩时，会自动将图片非白色部分填充，且图片越清晰，运行速度越快

其中 WordCloud 是云词图最重要的对象，其主要参数描述如下：

效果如下图：

上小结是将文章中所有内容进行分词，输出了所有词，但很多时候，我们有进一步的需求。例如：

1、只需要前 100 个关键词就够了。

2、不需要五颜六色的词语，应与遮罩图片颜色一致。

100个关键词，我们在分词时使用 TextRank 算法从句子中提取关键词。

遮罩颜色可通过设置 WordCloud 的 color_func 属性。

最终效果如下：

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/192126.html

包含hmm的python实现的词条

本文目录一览：

Python hmmlearn中的混淆矩阵是怎么表示的

python中怎样处理汉语的同义词用结巴分词

Python 画好看的云词图

相关推荐

发表回复