包含python如何實現簡單的驗證碼輸入的詞條

本文目錄一覽：

1、python如何識別驗證碼
2、如何利用Python做簡單的驗證碼識別
3、selenium+python怎麼模擬用戶輸入驗證碼登錄
4、python簡單驗證碼識別的實現過程

python如何識別驗證碼

我們首先識別最簡單的一種驗證碼，即圖形驗證碼。這種驗證碼最早出現，現在也很常見，一般由4位字母或者數字組成。例如，中國知網的註冊頁面有類似的驗證碼，頁面如下所示：

表單中最後一項就是圖形驗證碼，我們必須完全正確輸入圖中的字符才可以完成註冊。

更多有關驗證碼的知識，可以參考這些文章：

Python3爬蟲進階：識別圖形驗證碼

Python3爬蟲進階：識別極驗滑動驗證碼

Python3爬蟲進階：識別點觸點選驗證碼

Python3爬蟲進階：識別微博宮格驗證碼

·本節目標以知網的驗證碼為例，講解利用OCR技術識別圖形驗證碼的方法。

·準備工作識別圖形驗證碼需要庫tesserocr，以mac安裝為例：在mac下，我們首先使用Homebrew安裝ImageMagick和tesseract庫： brew install imagemagickbrew install tesseract 接下來再安裝tesserocr即可：pip3 install tesserocr pillow這樣我們就完成了 tesserocr的安裝。

·獲取驗證碼為了便於實驗，我們先將驗證碼的圖片保存到本地。打開開發者工具，找到驗證碼元素。驗證碼元素是一張圖片，它的ser屬性是CheckCode.aspk。所以我們直接打開如下鏈接就可以看到一個驗證碼，右鍵保存即可，將其命名為code.jpg：

這樣我們就得到一張驗證碼圖片，以供測試識別使用。

如何利用Python做簡單的驗證碼識別

先是獲取驗證碼樣本。。。我存了大概500個。

用dia測了測每個字之間的間距，直接用PIL開始切。

from PIL import Image

for j in range(0,500):

f=Image.open(“../test{}.jpg”.format(j))

for i in range(0,4):

f.crop((20+20*i,0,40+20*i,40)).save(“test{0}-{1}.jpg”.format(j,i+1))

上面一段腳本的意思是把jpg切成四個小塊然後保存

之後就是二值化啦。

def TotallyShit(im):

x,y=im.size

mmltilist=list()

for i in range(x):

for j in range(y):

if im.getpixel((i,j))200:

mmltilist.append(1)

else:

mmltilist.append(0)

return mmltilist

咳咳，不要在意函數的名字。上面的一段代碼的意思是遍歷圖片的每個像素點，顏色數值小於200的用1表示，其他的用0表示。

其中的im代表的是Image.open()類型。

切好的圖片長這樣的。

只能說這樣切的圖片還是很粗糙，很僵硬。

下面就是分類啦。

把0-9，“+”，”-“的圖片挑好並放在不同的文件夾裡面，這裡就是純體力活了。

再之後就是模型建立了。

這裡我試了自己寫的還有sklearn svm和sklearn neural_network。發現最後一個的識別正確率高的多。不知道是不是我樣本問題QAQ。

下面是模型建立的代碼

from sklearn.neural_network import MLPClassifier

import numpy as np

def clf():

clf=MLPClassifier()

mmltilist=list()

X=list()

for i in range(0,12):

for j in os.listdir(“douplings/douplings-{}”.format(i)):

mmltilist.append(TotallyShit(Image.open(“douplings/douplings-{0}/{1}”.format(i,j)).convert(“L”)))

X.append(i)

clf.fit(mmltilist,X)

return clf

大概的意思是從圖片源中讀取圖片和label然後放到模型中去跑吧。

之後便是圖像匹配啦。

def get_captcha(self):

with open(“test.jpg”,”wb”) as f:

f.write(self.session.get(self.live_captcha_url).content)

gim=Image.open(“test.jpg”).convert(“L”)

recognize_list=list()

for i in range(0,4):

part=TotallyShit(gim.crop((20+20*i,0,40+20*i,40)))

np_part_array=np.array(part).reshape(1,-1)

predict_num=int(self.clf.predict(np_part_array)[0])

if predict_num==11:

recognize_list.append(“+”)

elif predict_num==10:

recognize_list.append(“-“)

else:

recognize_list.append(str(predict_num))

return ”.join(recognize_list)

最後eval一下識別出來的字符串就得出結果了。。

順便提一句現在的bilibili登陸改成rsa加密了，麻蛋，以前的腳本全部作廢，心好痛。

登陸的代碼。

import time

import requests

import rsa

r=requests.session()

data=r.get(“act=getkey_=”+str(int(time.time()*1000))).json()

pub_key=rsa.PublicKey.load_pkcs1_openssl_pem(data[‘key’])

payload = {

‘keep’: 1,

‘captcha’: ”,

‘userid’: “youruserid”,

‘pwd’: b64encode(rsa.encrypt((data[‘hash’] +”yourpassword”).encode(), pub_key)).decode(),

}

r.post(“”,data=payload)

selenium+python怎麼模擬用戶輸入驗證碼登錄

selenium模塊調用瀏覽器chromdriver，這樣就是一個可以看見的瀏覽器，用戶可以手動的去填寫驗證碼，然後下面就交給程序去操作了

如果你能採用圖像識別，那就不需要用selenium了，用selenium在爬蟲中主要目的是加載js文件，

如果能直接抓取登錄接口，直接一個post就能搞定！！！

python簡單驗證碼識別的實現過程

demo :

import pytesseract

from PIL import Image

image = Image.open(“captcha.png”)

print(pytesseract.image_to_string(image))

=================================================

=================================================中文識別

import pytesseract

from PIL import Image

image = Image.open(“00.jpg”)

print(pytesseract.image_to_string(image,lang=’chi_sim’))

有時候文本識別率並不高，建議圖像識別前，先對圖像進行灰度化和二值化

效果如下（有時候第一次可能識別失敗，可以寫個循環邏輯讓它多識別幾次，一般程序運行1-3次基本會識別成功）：

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/295496.html

包含python如何實現簡單的驗證碼輸入的詞條

本文目錄一覽：

python如何識別驗證碼

如何利用Python做簡單的驗證碼識別

selenium+python怎麼模擬用戶輸入驗證碼登錄

python簡單驗證碼識別的實現過程

相關推薦

發表回復