一、概述
百度OCR文字識別介面是一種基於深度學習技術的圖片文字識別服務,能夠在秒級別完成對各種場景、各種印刷體、手寫體的文字識別任務。它支持多種API傳輸方式,包括HTTP/HTTPS協議、POST/GET等方式,並且提供多種語言的SDK。
二、介面調用
調用百度OCR文字識別介面非常簡單,只需完成以下幾個步驟:
1、在百度AI平台中創建應用,獲取API Key和Secret Key;
2、通過HTTP/HTTPS協議發送請求,攜帶API Key、Secret Key和圖片二進位數據或者圖片URL;
3、解析響應報文,獲取識別結果。
以下為通過Python SDK調用通用文字識別API的示例代碼:
from aip import AipOcr # 以下三項信息由創建應用時自動生成 APP_ID = 'your_app_id' API_KEY = 'your_api_key' SECRET_KEY = 'your_secret_key' # 創建AipOcr客戶端 client = AipOcr(APP_ID, API_KEY, SECRET_KEY) # 讀取本地圖片文件 with open('example.png', 'rb') as fp: image = fp.read() # 調用通用文字識別介面 result = client.basicGeneral(image) # 輸出識別結果 print(result)
三、介面參數
百度OCR文字識別介面提供多種參數,能夠滿足不同的識別需求。以下為常用參數的說明:
1、image:原始圖像二進位數據或者圖像URL(使用URL時需確保可公網訪問);
2、language_type:識別語言類型,默認為CHN_ENG(中英文混合);
3、detect_direction:是否檢測圖像朝向,默認為false;
4、detect_language:是否檢測語言,默認為false;
5、probability:是否返回識別結果中每一行的置信度,默認為false。
以下為Python SDK中設置參數的示例代碼:
# 調用通用文字識別介面,增加detect_direction參數 result = client.basicGeneral(image, {"detect_direction": "true"}) # 調用表格文字識別介面,增加language_type和probability參數 result = client.form(image, {"language_type": "JAP", "probability": "true"})
四、介面返回值
百度OCR文字識別介面的返回值為JSON格式,其中包含了識別結果、識別時間等信息。以下是通用文字識別介面返回值的示例:
{ "log_id": 30791757289303, "words_result_num": 3, "words_result": [ {"words": "百度AI平台"}, {"words": "www.ai.baidu.com"}, {"words": "全球領先的AI開放平台"} ], "language": 0 }
五、介面應用場景
百度OCR文字識別介面能夠廣泛應用於身份證、銀行卡、車牌、票據、營業執照、表格等各種場景的數據獲取和識別。以下為部分應用場景的示例:
1、身份證識別
身份證包含姓名、證件號碼、出生日期等信息,通過OCR技術可以輕鬆提取這些信息,並且能夠智能識別身份證上面的正反面;
2、表格識別
表格作為一種常見的文檔形式,它的數據處理一般耗費人力物力。通過OCR技術,可以將表格中的文字識別出來,並且還可以提取表格中的各種信息,為表格數據處理提供便利;
3、票據識別
票據是尤其適合OCR技術應用的場景,通過文字識別,可自動獲得各種票據上面的信息,減輕工作負擔。例如,可以用OCR來讀取快遞運單號碼;
4、車牌識別
OCR技術可以自動識別車牌號碼,提高車輛管理效率;
5、銀行卡識別
OCR技術可以識別銀行卡號和發卡行等信息,提高銀行系統的自動化程度。
原創文章,作者:XOCZU,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/367915.html