網站api介面對接教程「api調用異常是什麼意思」

1 說明

1.1 Tesseract

1.1.1 是目前公認最優秀、最精確的開源 OCR 系統。

1.1.2 目前由 Google 贊助。

1.1.3 優點:極高的精確度,很高的靈活性,還可以通過訓練識別出任何字體,也可以識別出 Unicode 字元。

1.2 python的tesseract進行有關庫:有2個。

1.2.1 tesserocr和pytesseract是Python的2個OCR識別庫。

1.2.2 tesserocr和pytesseract的核心都是tesseract。

1.3 內容

1.3.1 tesseract,tesserocr和pytesseract的安裝。

1.3.2 基本使用教程,入門級,講解清楚,一秒入門,適合收藏。

文字識別:2種方法用python對tesseract進行API封裝和調用

2 tesseract安裝

2.1 本機是deepin-linux操作系統,安裝方法如下:

#在Ubuntu、Debian和Deepin系統下,安裝命令如下:
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

2.2 查看默認安裝語言:沒有中文

tesseract --list-langs

結果:

List of available languages (3):
osd
eng
equ

2.3 中文等語言包的安裝:

2.3.1 方法一:

git clone https://github.com/tesseract-ocr/tessdata.git  #我失敗了,你懂的

2.3.2 方法二:

https://github.com/tesseract-ocr/tessdata  #網頁手動下載,我竟然也失敗了

2.3.3 方法三:

自己網上搜索下載,好心人的資源,我成功了,自己找吧,有的,我這裡就不放了。

2.3.4 將下載的語音包解壓,複製到
/usr/share/tesseract-ocr/tessdata下。

2.4 再查看一下能支持的語言包,可以支持129種語言了。

文字識別:2種方法用python對tesseract進行API封裝和調用

3 tesseract的使用

3.1 終端:

tesseract /home/xgj/Desktop/tesserocr/1.png /home/xgj/Desktop/tesserocr/output-1

3.2 說明:1.png識別的文字的圖片,生成output-1.txt文件,默認英文識別。

3.3 注意:識別圖片不能太小。

Error in pixGenerateHalftoneMask: pix too small: w = 150, h = 52

3.4 中文識別,-l chi_sim代表語言為中文簡體。

tesseract /home/xgj/Desktop/tesserocr/4.png /home/xgj/Desktop/tesserocr/output-4 -l chi_sim
文字識別:2種方法用python對tesseract進行API封裝和調用

4 python的tesseract封裝庫

4.1 安裝:

pip install tesserocr pillow  #默認附帶安裝pillow讀取圖片
pip install pytesseract  #同上,實際工作中,安裝一個就可以了,使用相同

4.2 識別圖

文字識別:2種方法用python對tesseract進行API封裝和調用

4.3 pytesseract的使用

4.3.1 效果圖

文字識別:2種方法用python對tesseract進行API封裝和調用

4.3.2 代碼

import pytesseract
# 【注意】PIL庫的安裝: pip install Pillow
from PIL import Image

# 讀取圖片
image = Image.open("/home/xgj/Desktop/tesserocr/5.png")
# 識別圖片
a=pytesseract.image_to_string(image, config="-psm 7",lang='chi_sim')
#列印結果
print(a)

4.4 tesserocr使用,代碼如下:

import tesserocr

#可識別中文
#方法一
print(tesserocr.file_to_text('/home/xgj/Desktop/tesserocr/5.png',lang='chi_sim'))

#方法二
from PIL import Image
#讀取圖片
image = Image.open('/home/xgj/Desktop/tesserocr/5.png')

print(tesserocr.image_to_text(image,lang='chi_sim'))  

5 補充一下終端法:

tesseract /home/xgj/Desktop/tesserocr/5.png result -l chi_sim && cat result.txt
文字識別:2種方法用python對tesseract進行API封裝和調用
文字識別:2種方法用python對tesseract進行API封裝和調用

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/269475.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2024-12-16 13:16
下一篇 2024-12-16 13:16

相關推薦

發表回復

登錄後才能評論