使用Python計算餘弦相似度

一、什麼是餘弦相似度

在自然語言處理中，衡量兩個文本的相似度常常使用餘弦相似度。餘弦相似度基於向量空間模型，將文本看作向量，利用兩個向量之間的夾角餘弦值作為它們的相似度。在一定程度上，它可以定量地反映兩個文本在內容上的相似性。

兩個向量之間的餘弦相似度計算公式如下：

cosine_similarity = dot(A, B) / ||A|| * ||B||

其中，「||A||」和「||B||」表示A向量和B向量的模，即向量長度。

在文本處理中，A和B向量通常表示兩個文本的詞向量，每個元素代表一個單詞在文本中的出現頻率或者TF-IDF值。

二、Python計算餘弦相似度的方法

Python中有多種方式可以計算餘弦相似度，下面介紹兩種常用方式：

1. 使用scikit-learn庫

scikit-learn是一個Python的機器學習庫，它提供了各種機器學習演算法和工具。其中，cosine_similarity函數可以用來計算兩個向量的餘弦相似度。

from sklearn.metrics.pairwise import cosine_similarity

# 兩個向量
vector1 = [1, 2, 3]
vector2 = [4, 5, 6]

# 計算餘弦相似度
cosine_similarity([vector1], [vector2])

該代碼輸出結果為：array([[0.97463185]]），表示兩個向量的餘弦相似度為0.97463185。

2. 使用numpy庫

numpy是一個Python的數值計算庫，它可以高效地進行向量和矩陣運算。在numpy中，可以使用dot函數和norm函數計算餘弦相似度。

import numpy as np

# 兩個向量
vector1 = [1, 2, 3]
vector2 = [4, 5, 6]

# 計算餘弦相似度
cosine_similarity = np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))
cosine_similarity

該代碼輸出結果為：0.9746318461970762，與第一種方式得到的結果相同。

三、應用場景

餘弦相似度可以應用在很多自然語言處理任務中，例如文本分類、信息檢索、相似文章推薦等。其中，相似文章推薦是應用得比較廣泛的場景之一。在相似文章推薦中，首先需要計算所有文章之間的相似度，然後根據相似度進行排名，得到和目標文章最相似的文章。

四、總結

本文介紹了餘弦相似度的原理和Python計算餘弦相似度的方法。餘弦相似度可以應用在很多文本處理任務中，特別是相似文章推薦中。在實際應用中，除了使用Python庫計算餘弦相似度外，還需要考慮分詞、停用詞、詞向量等問題，以提高相似度計算的準確性和效率。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/249751.html