- 1、餘弦相似度
- 2、餘弦相似度python實現
- 3、python 計算每行之間的餘弦相似性
簡介:餘弦相似度,即兩物體之間的cos$值,值越大,表示兩物體的相似度越大。
1、向量空間餘弦相似度:即向量空間中兩夾角的餘弦值。其值在0-1之間,兩向量越接近,其夾角越小,餘弦值越接近於1。
2、n維空間的餘弦公式:
3、python中的工具:
numpy中提供了範數的計算工具: linalg.norm(),假定X、Y均為列向量,
則: num = float(X.T * Y)#若為行向量則 X * Y.T
denom = linalg.norm(X) * linalg.norm(Y)
cos = num / denom#餘弦值
sim =0.5+0.5* cos#歸一化
dist = linalg.norm(X – Y)
sim =1.0/ (1.0+ dist)#歸一化
4、例子:
***文本相似度****
sim =1.0/ (1.0+ dist)#歸一化
句子A:這隻皮靴號碼大了。那隻號碼合適
句子B:這隻皮靴號碼不小,那隻更合適
怎樣計算上面兩句話的相似程度?
基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。
第一步,分詞 。
句子A:這隻/皮靴/號碼/大了。那隻/號碼/合適。
句子B:這隻/皮靴/號碼/不/小,那隻/更/合適。
第二步,列出所有的詞。
這隻,皮靴,號碼,大了。那隻,合適,不,小,很
第三步,計算詞頻。
句子A:這隻1,皮靴1,號碼2,大了1。那隻1,合適1,不0,小0,更0
句子B:這隻1,皮靴1,號碼1,大了0。那隻1,合適1,不1,小1,更1
第四步,寫出詞頻向量。
句子A:(1,1,2,1,1,1,0,0,0)
句子B:(1,1,1,0,1,1,1,1,1)
到這裡,問題就變成了如何計算這兩個向量的相似程度。我們可以把它們想象成空間中的兩條線段,都是從原點([0, 0, …])出發,指向不同的方向。兩條線段之間形成一個夾角,如果夾角為0度,意味着方向相同、線段重合,這是表示兩個向量代表的文本完全相等;如果夾角為90度,意味着形成直角,方向完全不相似;如果夾角為180度,意味着方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。
使用上面的公式(4)
計算兩個句子向量
句子A:(1,1,2,1,1,1,0,0,0)
和句子B:(1,1,1,0,1,1,1,1,1)的向量餘弦值來確定兩個句子的相似度。
計算過程如下:
計算結果中夾角的餘弦值為0.81非常接近於1,所以,上面的句子A和句子B是基本相似的
由此,我們就得到了文本相似度計算的處理流程是:
(1)找出兩篇文章的關鍵詞;
(2)每篇文章各取出若干個關鍵詞,合併成一個集合,計算每篇文章對於這個集合中的詞的詞頻
(3)生成兩篇文章各自的詞頻向量;
(4)計算兩個向量的餘弦相似度,值越大就表示越相似。
通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。
餘弦相似度是文本相似度度量中使用較多的一種方法,對於兩個向量X和Y,其對應的形式如下:
X=(x1,x2…,xn)
Y=(y1,y2…,yn)
其向量的餘弦相似度公式為:
X,Y對應其中的A和B
python實現:
輸出結果:0.5000000000000001
結果越接近1,夾角就越接近0,代表越相似。
越趨近於-1,他們的方向越相反;接近於0,表示兩個向量近乎於正交
比如你在a.py的文件中定義了一個test(x,y)函數,在shell中調用的時候from a import testtest(x,y)
原創文章,作者:BQ81M,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/126137.html