包含python如何实现简单的验证码输入的词条

本文目录一览：

1、python如何识别验证码
2、如何利用Python做简单的验证码识别
3、selenium+python怎么模拟用户输入验证码登录
4、python简单验证码识别的实现过程

python如何识别验证码

我们首先识别最简单的一种验证码，即图形验证码。这种验证码最早出现，现在也很常见，一般由4位字母或者数字组成。例如，中国知网的注册页面有类似的验证码，页面如下所示：

表单中最后一项就是图形验证码，我们必须完全正确输入图中的字符才可以完成注册。

更多有关验证码的知识，可以参考这些文章：

Python3爬虫进阶：识别图形验证码

Python3爬虫进阶：识别极验滑动验证码

Python3爬虫进阶：识别点触点选验证码

Python3爬虫进阶：识别微博宫格验证码

·本节目标以知网的验证码为例，讲解利用OCR技术识别图形验证码的方法。

·准备工作识别图形验证码需要库tesserocr，以mac安装为例：在mac下，我们首先使用Homebrew安装ImageMagick和tesseract库： brew install imagemagickbrew install tesseract 接下来再安装tesserocr即可：pip3 install tesserocr pillow这样我们就完成了 tesserocr的安装。

·获取验证码为了便于实验，我们先将验证码的图片保存到本地。打开开发者工具，找到验证码元素。验证码元素是一张图片，它的ser属性是CheckCode.aspk。所以我们直接打开如下链接就可以看到一个验证码，右键保存即可，将其命名为code.jpg：

这样我们就得到一张验证码图片，以供测试识别使用。

如何利用Python做简单的验证码识别

先是获取验证码样本。。。我存了大概500个。

用dia测了测每个字之间的间距，直接用PIL开始切。

from PIL import Image

for j in range(0,500):

f=Image.open(“../test{}.jpg”.format(j))

for i in range(0,4):

f.crop((20+20*i,0,40+20*i,40)).save(“test{0}-{1}.jpg”.format(j,i+1))

上面一段脚本的意思是把jpg切成四个小块然后保存

之后就是二值化啦。

def TotallyShit(im):

x,y=im.size

mmltilist=list()

for i in range(x):

for j in range(y):

if im.getpixel((i,j))200:

mmltilist.append(1)

else:

mmltilist.append(0)

return mmltilist

咳咳，不要在意函数的名字。上面的一段代码的意思是遍历图片的每个像素点，颜色数值小于200的用1表示，其他的用0表示。

其中的im代表的是Image.open()类型。

切好的图片长这样的。

只能说这样切的图片还是很粗糙，很僵硬。

下面就是分类啦。

把0-9，“+”，”-“的图片挑好并放在不同的文件夹里面，这里就是纯体力活了。

再之后就是模型建立了。

这里我试了自己写的还有sklearn svm和sklearn neural_network。发现最后一个的识别正确率高的多。不知道是不是我样本问题QAQ。

下面是模型建立的代码

from sklearn.neural_network import MLPClassifier

import numpy as np

def clf():

clf=MLPClassifier()

mmltilist=list()

X=list()

for i in range(0,12):

for j in os.listdir(“douplings/douplings-{}”.format(i)):

mmltilist.append(TotallyShit(Image.open(“douplings/douplings-{0}/{1}”.format(i,j)).convert(“L”)))

X.append(i)

clf.fit(mmltilist,X)

return clf

大概的意思是从图片源中读取图片和label然后放到模型中去跑吧。

之后便是图像匹配啦。

def get_captcha(self):

with open(“test.jpg”,”wb”) as f:

f.write(self.session.get(self.live_captcha_url).content)

gim=Image.open(“test.jpg”).convert(“L”)

recognize_list=list()

for i in range(0,4):

part=TotallyShit(gim.crop((20+20*i,0,40+20*i,40)))

np_part_array=np.array(part).reshape(1,-1)

predict_num=int(self.clf.predict(np_part_array)[0])

if predict_num==11:

recognize_list.append(“+”)

elif predict_num==10:

recognize_list.append(“-“)

else:

recognize_list.append(str(predict_num))

return ”.join(recognize_list)

最后eval一下识别出来的字符串就得出结果了。。

顺便提一句现在的bilibili登陆改成rsa加密了，麻蛋，以前的脚本全部作废，心好痛。

登陆的代码。

import time

import requests

import rsa

r=requests.session()

data=r.get(“act=getkey_=”+str(int(time.time()*1000))).json()

pub_key=rsa.PublicKey.load_pkcs1_openssl_pem(data[‘key’])

payload = {

‘keep’: 1,

‘captcha’: ”,

‘userid’: “youruserid”,

‘pwd’: b64encode(rsa.encrypt((data[‘hash’] +”yourpassword”).encode(), pub_key)).decode(),

}

r.post(“”,data=payload)

selenium+python怎么模拟用户输入验证码登录

selenium模块调用浏览器chromdriver，这样就是一个可以看见的浏览器，用户可以手动的去填写验证码，然后下面就交给程序去操作了

如果你能采用图像识别，那就不需要用selenium了，用selenium在爬虫中主要目的是加载js文件，

如果能直接抓取登录接口，直接一个post就能搞定！！！

python简单验证码识别的实现过程

demo :

import pytesseract

from PIL import Image

image = Image.open(“captcha.png”)

print(pytesseract.image_to_string(image))

=================================================

=================================================中文识别

import pytesseract

from PIL import Image

image = Image.open(“00.jpg”)

print(pytesseract.image_to_string(image,lang=’chi_sim’))

有时候文本识别率并不高，建议图像识别前，先对图像进行灰度化和二值化

效果如下（有时候第一次可能识别失败，可以写个循环逻辑让它多识别几次，一般程序运行1-3次基本会识别成功）：

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/295496.html

包含python如何实现简单的验证码输入的词条

本文目录一览：

python如何识别验证码

如何利用Python做简单的验证码识别

selenium+python怎么模拟用户输入验证码登录

python简单验证码识别的实现过程

相关推荐

发表回复