本文目錄一覽:
- 1、python 怎麼調用餘弦相似度函數
- 2、誰用過python中的第三方庫face recognition
- 3、餘弦相似度python實現
- 4、餘弦相似度
- 5、python 使用餘弦相似度計算之後如何設置一個閾值呢
python 怎麼調用餘弦相似度函數
比如你在a.py的文件中定義了一個test(x,y)函數,在shell中調用的時候from a import testtest(x,y)
誰用過python中的第三方庫face recognition
簡介
該庫可以通過python或者命令行即可實現人臉識別的功能。使用dlib深度學習人臉識別技術構建,在戶外臉部檢測資料庫基準(Labeled Faces in the Wild)上的準確率為99.38%。
在github上有相關的鏈接和API文檔。
在下方為提供的一些相關源碼或是文檔。當前庫的版本是v0.2.0,點擊docs可以查看API文檔,我們可以查看一些函數相關的說明等。
安裝配置
安裝配置很簡單,按照github上的說明一步一步來就可以了。
根據你的python版本輸入指令:
pip install face_recognition11
或者
pip3 install face_recognition11
正常來說,安裝過程中會出錯,會在安裝dlib時出錯,可能報錯也可能會卡在那不動。因為pip在編譯dlib時會出錯,所以我們需要手動編譯dlib再進行安裝。
按照它給出的解決辦法:
1、先下載下來dlib的源碼。
git clone
2、編譯dlib。
cd dlib
mkdir build
cd build
cmake .. -DDLIB_USE_CUDA=0 -DUSE_AVX_INSTRUCTIONS=1
cmake –build1234512345
3、編譯並安裝python的拓展包。
cd ..
python3 setup.py install –yes USE_AVX_INSTRUCTIONS –no DLIB_USE_CUDA1212
注意:這個安裝步驟是默認認為沒有GPU的,所以不支持cuda。
在自己手動編譯了dlib後,我們可以在python中import dlib了。
之後再重新安裝,就可以配置成功了。
根據你的python版本輸入指令:
pip install face_recognition11
或者
pip3 install face_recognition11
安裝成功之後,我們可以在python中正常import face_recognition了。
編寫人臉識別程序
編寫py文件:
# -*- coding: utf-8 -*-
#
# 檢測人臉
import face_recognition
import cv2
# 讀取圖片並識別人臉
img = face_recognition.load_image_file(“silicon_valley.jpg”)
face_locations = face_recognition.face_locations(img)
print face_locations
# 調用opencv函數顯示圖片
img = cv2.imread(“silicon_valley.jpg”)
cv2.namedWindow(“原圖”)
cv2.imshow(“原圖”, img)
# 遍歷每個人臉,並標註
faceNum = len(face_locations)
for i in range(0, faceNum):
top = face_locations[i][0]
right = face_locations[i][1]
bottom = face_locations[i][2]
left = face_locations[i][3]
start = (left, top)
end = (right, bottom)
color = (55,255,155)
thickness = 3
cv2.rectangle(img, start, end, color, thickness)
# 顯示識別結果
cv2.namedWindow(“識別”)
cv2.imshow(“識別”, img)
cv2.waitKey(0)
cv2.destroyAllWindows()12345678910111213141516171819202122232425262728293031323334353637381234567891011121314151617181920212223242526272829303132333435363738
注意:這裡使用了python-OpenCV,一定要配置好了opencv才能運行成功。
運行結果:
程序會讀取當前目錄下指定的圖片,然後識別其中的人臉,並標註每個人臉。
(使用圖片來自美劇矽谷)
編寫人臉比對程序
首先,我在目錄下放了幾張圖片:
這裡用到的是一張喬布斯的照片和一張奧巴馬的照片,和一張未知的照片。
編寫程序:
# 識別圖片中的人臉
import face_recognition
jobs_image = face_recognition.load_image_file(“jobs.jpg”);
obama_image = face_recognition.load_image_file(“obama.jpg”);
unknown_image = face_recognition.load_image_file(“unknown.jpg”);
jobs_encoding = face_recognition.face_encodings(jobs_image)[0]
obama_encoding = face_recognition.face_encodings(obama_image)[0]
unknown_encoding = face_recognition.face_encodings(unknown_image)[0]
results = face_recognition.compare_faces([jobs_encoding, obama_encoding], unknown_encoding )
labels = [‘jobs’, ‘obama’]
print(‘results:’+str(results))
for i in range(0, len(results)):
if results[i] == True:
print(‘The person is:’+labels[i])123456789101112131415161718123456789101112131415161718
運行結果:
識別出未知的那張照片是喬布斯的。
攝像頭實時識別
代碼:
# -*- coding: utf-8 -*-
import face_recognition
import cv2
video_capture = cv2.VideoCapture(1)
obama_img = face_recognition.load_image_file(“obama.jpg”)
obama_face_encoding = face_recognition.face_encodings(obama_img)[0]
face_locations = []
face_encodings = []
face_names = []
process_this_frame = True
while True:
ret, frame = video_capture.read()
small_frame = cv2.resize(frame, (0, 0), fx=0.25, fy=0.25)
if process_this_frame:
face_locations = face_recognition.face_locations(small_frame)
face_encodings = face_recognition.face_encodings(small_frame, face_locations)
face_names = []
for face_encoding in face_encodings:
match = face_recognition.compare_faces([obama_face_encoding], face_encoding)
if match[0]:
name = “Barack”
else:
name = “unknown”
face_names.append(name)
process_this_frame = not process_this_frame
for (top, right, bottom, left), name in zip(face_locations, face_names):
top *= 4
right *= 4
bottom *= 4
left *= 4
cv2.rectangle(frame, (left, top), (right, bottom), (0, 0, 255), 2)
cv2.rectangle(frame, (left, bottom – 35), (right, bottom), (0, 0, 255), 2)
font = cv2.FONT_HERSHEY_DUPLEX
cv2.putText(frame, name, (left+6, bottom-6), font, 1.0, (255, 255, 255), 1)
cv2.imshow(‘Video’, frame)
if cv2.waitKey(1) 0xFF == ord(‘q’):
break
video_capture.release()
cv2.destroyAllWindows()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545512345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455
識別結果:
我直接在手機上百度了幾張圖試試,程序識別出了奧巴馬。
這個庫很cool啊!
餘弦相似度python實現
通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。
餘弦相似度是文本相似度度量中使用較多的一種方法,對於兩個向量X和Y,其對應的形式如下:
X=(x1,x2…,xn)
Y=(y1,y2…,yn)
其向量的餘弦相似度公式為:
X,Y對應其中的A和B
python實現:
輸出結果:0.5000000000000001
結果越接近1,夾角就越接近0,代表越相似。
越趨近於-1,他們的方向越相反;接近於0,表示兩個向量近乎於正交
餘弦相似度
簡介:餘弦相似度,即兩物體之間的cos$值,值越大,表示兩物體的相似度越大。
1、向量空間餘弦相似度:即向量空間中兩夾角的餘弦值。其值在0-1之間,兩向量越接近,其夾角越小,餘弦值越接近於1。
2、n維空間的餘弦公式:
3、python中的工具:
numpy中提供了範數的計算工具: linalg.norm(),假定X、Y均為列向量,
則: num = float(X.T * Y)#若為行向量則 X * Y.T
denom = linalg.norm(X) * linalg.norm(Y)
cos = num / denom#餘弦值
sim =0.5+0.5* cos#歸一化
dist = linalg.norm(X – Y)
sim =1.0/ (1.0+ dist)#歸一化
4、例子:
***文本相似度****
sim =1.0/ (1.0+ dist)#歸一化
句子A:這隻皮靴號碼大了。那隻號碼合適
句子B:這隻皮靴號碼不小,那隻更合適
怎樣計算上面兩句話的相似程度?
基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。
第一步,分詞 。
句子A:這隻/皮靴/號碼/大了。那隻/號碼/合適。
句子B:這隻/皮靴/號碼/不/小,那隻/更/合適。
第二步,列出所有的詞。
這隻,皮靴,號碼,大了。那隻,合適,不,小,很
第三步,計算詞頻。
句子A:這隻1,皮靴1,號碼2,大了1。那隻1,合適1,不0,小0,更0
句子B:這隻1,皮靴1,號碼1,大了0。那隻1,合適1,不1,小1,更1
第四步,寫出詞頻向量。
句子A:(1,1,2,1,1,1,0,0,0)
句子B:(1,1,1,0,1,1,1,1,1)
到這裡,問題就變成了如何計算這兩個向量的相似程度。我們可以把它們想像成空間中的兩條線段,都是從原點([0, 0, …])出發,指向不同的方向。兩條線段之間形成一個夾角,如果夾角為0度,意味著方向相同、線段重合,這是表示兩個向量代表的文本完全相等;如果夾角為90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。
使用上面的公式(4)
計算兩個句子向量
句子A:(1,1,2,1,1,1,0,0,0)
和句子B:(1,1,1,0,1,1,1,1,1)的向量餘弦值來確定兩個句子的相似度。
計算過程如下:
計算結果中夾角的餘弦值為0.81非常接近於1,所以,上面的句子A和句子B是基本相似的
由此,我們就得到了文本相似度計算的處理流程是:
(1)找出兩篇文章的關鍵詞;
(2)每篇文章各取出若干個關鍵詞,合併成一個集合,計算每篇文章對於這個集合中的詞的詞頻
(3)生成兩篇文章各自的詞頻向量;
(4)計算兩個向量的餘弦相似度,值越大就表示越相似。
python 使用餘弦相似度計算之後如何設置一個閾值呢
找一個驗證集合,遍歷可能的閾值,計算評價指標,確定最佳閾值
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/186036.html