餘弦相似度python的簡單介紹

  • 1、餘弦相似度
  • 2、餘弦相似度python實現
  • 3、python 計算每行之間的餘弦相似性

簡介:餘弦相似度,即兩物體之間的cos$值,值越大,表示兩物體的相似度越大。

1、向量空間餘弦相似度:即向量空間中兩夾角的餘弦值。其值在0-1之間,兩向量越接近,其夾角越小,餘弦值越接近於1。

2、n維空間的餘弦公式:

3、python中的工具:

numpy中提供了範數的計算工具: linalg.norm(),假定X、Y均為列向量,

則:    num = float(X.T * Y)#若為行向量則 X * Y.T

           denom = linalg.norm(X) * linalg.norm(Y)

           cos = num / denom#餘弦值

           sim =0.5+0.5* cos#歸一化

           dist = linalg.norm(X – Y)

          sim =1.0/ (1.0+ dist)#歸一化

4、例子:

***文本相似度****

sim =1.0/ (1.0+ dist)#歸一化

句子A:這隻皮靴號碼大了。那隻號碼合適

句子B:這隻皮靴號碼不小,那隻更合適

怎樣計算上面兩句話的相似程度?

基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。

第一步,分詞 。

句子A:這隻/皮靴/號碼/大了。那隻/號碼/合適。

句子B:這隻/皮靴/號碼/不/小,那隻/更/合適。

第二步,列出所有的詞。

這隻,皮靴,號碼,大了。那隻,合適,不,小,很

第三步,計算詞頻。

句子A:這隻1,皮靴1,號碼2,大了1。那隻1,合適1,不0,小0,更0

句子B:這隻1,皮靴1,號碼1,大了0。那隻1,合適1,不1,小1,更1

第四步,寫出詞頻向量。

句子A:(1,1,2,1,1,1,0,0,0)

句子B:(1,1,1,0,1,1,1,1,1)

到這裡,問題就變成了如何計算這兩個向量的相似程度。我們可以把它們想像成空間中的兩條線段,都是從原點([0, 0, …])出發,指向不同的方向。兩條線段之間形成一個夾角,如果夾角為0度,意味著方向相同、線段重合,這是表示兩個向量代表的文本完全相等;如果夾角為90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。

使用上面的公式(4)

計算兩個句子向量

句子A:(1,1,2,1,1,1,0,0,0)

和句子B:(1,1,1,0,1,1,1,1,1)的向量餘弦值來確定兩個句子的相似度。

計算過程如下:

計算結果中夾角的餘弦值為0.81非常接近於1,所以,上面的句子A和句子B是基本相似的

由此,我們就得到了文本相似度計算的處理流程是:

(1)找出兩篇文章的關鍵詞;

(2)每篇文章各取出若干個關鍵詞,合併成一個集合,計算每篇文章對於這個集合中的詞的詞頻

(3)生成兩篇文章各自的詞頻向量;

(4)計算兩個向量的餘弦相似度,值越大就表示越相似。

通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。

餘弦相似度是文本相似度度量中使用較多的一種方法,對於兩個向量X和Y,其對應的形式如下:

X=(x1,x2…,xn)

Y=(y1,y2…,yn)

其向量的餘弦相似度公式為:

X,Y對應其中的A和B

python實現:

輸出結果:0.5000000000000001

結果越接近1,夾角就越接近0,代表越相似。

越趨近於-1,他們的方向越相反;接近於0,表示兩個向量近乎於正交

比如你在a.py的文件中定義了一個test(x,y)函數,在shell中調用的時候from a import testtest(x,y)

原創文章,作者:BQ81M,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/126137.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
BQ81M的頭像BQ81M
上一篇 2024-10-03 23:06
下一篇 2024-10-03 23:06

相關推薦

  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智慧、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • 蝴蝶優化演算法Python版

    蝴蝶優化演算法是一種基於仿生學的優化演算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化演算法Python版…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29

發表回復

登錄後才能評論