餘弦相似度python的簡單介紹

1、餘弦相似度
2、餘弦相似度python實現
3、python 計算每行之間的餘弦相似性

簡介：餘弦相似度，即兩物體之間的cos$值，值越大，表示兩物體的相似度越大。

1、向量空間餘弦相似度：即向量空間中兩夾角的餘弦值。其值在0-1之間，兩向量越接近，其夾角越小，餘弦值越接近於1。

2、n維空間的餘弦公式：

3、python中的工具：

numpy中提供了範數的計算工具： linalg.norm()，假定X、Y均為列向量，

則： num = float(X.T * Y)#若為行向量則 X * Y.T

denom = linalg.norm(X) * linalg.norm(Y)

cos = num / denom#餘弦值

sim =0.5+0.5* cos#歸一化

dist = linalg.norm(X – Y)

sim =1.0/ (1.0+ dist)#歸一化

4、例子：

＊＊＊文本相似度＊＊＊＊

sim =1.0/ (1.0+ dist)#歸一化

句子A：這隻皮靴號碼大了。那隻號碼合適

句子B：這隻皮靴號碼不小，那隻更合適

怎樣計算上面兩句話的相似程度？

基本思路是：如果這兩句話的用詞越相似，它們的內容就應該越相似。因此，可以從詞頻入手，計算它們的相似程度。

第一步，分詞。

句子A：這隻/皮靴/號碼/大了。那隻/號碼/合適。

句子B：這隻/皮靴/號碼/不/小，那隻/更/合適。

第二步，列出所有的詞。

這隻，皮靴，號碼，大了。那隻，合適，不，小，很

第三步，計算詞頻。

句子A：這隻1，皮靴1，號碼2，大了1。那隻1，合適1，不0，小0，更0

句子B：這隻1，皮靴1，號碼1，大了0。那隻1，合適1，不1，小1，更1

第四步，寫出詞頻向量。

句子A：(1，1，2，1，1，1，0，0，0)

句子B：(1，1，1，0，1，1，1，1，1)

到這裡，問題就變成了如何計算這兩個向量的相似程度。我們可以把它們想象成空間中的兩條線段，都是從原點（[0, 0, …]）出發，指向不同的方向。兩條線段之間形成一個夾角，如果夾角為0度，意味着方向相同、線段重合,這是表示兩個向量代表的文本完全相等；如果夾角為90度，意味着形成直角，方向完全不相似；如果夾角為180度，意味着方向正好相反。因此，我們可以通過夾角的大小，來判斷向量的相似程度。夾角越小，就代表越相似。

使用上面的公式(4)

計算兩個句子向量

句子A：(1，1，2，1，1，1，0，0，0)

和句子B：(1，1，1，0，1，1，1，1，1)的向量餘弦值來確定兩個句子的相似度。

計算過程如下：

計算結果中夾角的餘弦值為0.81非常接近於1，所以，上面的句子A和句子B是基本相似的

由此，我們就得到了文本相似度計算的處理流程是:

（1）找出兩篇文章的關鍵詞；

（2）每篇文章各取出若干個關鍵詞，合併成一個集合，計算每篇文章對於這個集合中的詞的詞頻

（3）生成兩篇文章各自的詞頻向量；

（4）計算兩個向量的餘弦相似度，值越大就表示越相似。

通過夾角的大小，來判斷向量的相似程度。夾角越小，就代表越相似。

餘弦相似度是文本相似度度量中使用較多的一種方法，對於兩個向量X和Y，其對應的形式如下：

X=（x1,x2…,xn）

Y=（y1,y2…,yn）

其向量的餘弦相似度公式為：

X,Y對應其中的A和B

python實現：

輸出結果：0.5000000000000001

結果越接近1，夾角就越接近0，代表越相似。

越趨近於-1，他們的方向越相反；接近於0，表示兩個向量近乎於正交

比如你在a.py的文件中定義了一個test(x,y)函數，在shell中調用的時候from a import testtest(x,y)

原創文章，作者：BQ81M，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/126137.html

餘弦相似度python的簡單介紹

相關推薦

發表回復