一、tessdata字庫
tessdata作為一個OCR(Optical Character Recognition, 光學字符識別)引擎,它需要一個字庫來進行字符識別。tessdata字庫包含了一個主要的識別引擎和各種語言的字典數據。tessdata字庫由Google公司開源並維護。在字庫方面,tessdata一般分為兩部分,一部分為主要的語言字典以及配置,另一部分則為語言之間的學科術語、特定算法配置以及一些其他上下文相關的字典,可自由選擇性下載並進行使用。
tessdata字庫的下載可通過一些網站進行下載,其中以github作為最常用最方便的方法,而且官方文檔也推薦使用github進行下載。
git clone https://github.com/tesseract-ocr/tessdata.git
二、tessdata中文語言包
眾所周知,tessdata支持多種語言的識別,包括中文,但中文識別過程要比英文複雜得多。中文識別需要一個符合中國特定文化特點的基礎算法,即需要使用中文符號。同時,隨着科技的發展,中文行文字網格處理的速度緩慢,字體複雜,需要進行各種優化來提高識別精度,所以需要下載中文語言包。
中文語言包可從github、百度雲盤及一些其他網站進行下載。其中,github的語言包下載方式與字庫相同,可以克隆tessdata倉庫並單獨下載。
git clone https://github.com/tesseract-ocr/tessdata.git
百度雲盤也提供了下載鏈接,如下:
鏈接: https://pan.baidu.com/s/1ErxNPVmjXmJ70kj5-qQI9g 密碼: zq2s
三、tessdata下載
tessdata的下載可從多個網站進行下載,包括官方網站、github、百度網盤等。官方網站提供了各種語言的可選供下載。github是使用尤其廣泛且方便的一種下載方式。
github的下載方式已經在之前的小標題中提到了,這裡再重複一下。下載tessdata需要進行以下步驟:
- 進入https://github.com/tesseract-ocr/tessdata
- 克隆tessdata倉庫
- 下載對應語言包
四、tessdata訓練
tessdata的識別效果取決於它的訓練效果以及字典數據的質量。一般情況下,根據預設的默認參數,tessdata的效果不一定很好。但在使用不同類型的文本時,可通過進行一些參數的優化和訓練以達到更好的識別效果。
訓練tessdata的大致方式是,先準備好一個大量的訓練數據,並將其分類成文本圖片和非文本圖片。然後,通過將其轉化成.tiff格式進行訓練,並設定好預設參數。最後,tessdata會自動進行逐漸優化的學習過程,以達到更好的識別效果。
以下是一個簡單的訓練tessdata樣例:
// 準備訓練數據 // 生成文件列表 $ find /path/to/training/folder -name "*.jpg" > \ /path/to/training/folder/images.txt $ find /path/to/training/folder -name "*.box" > \ /path/to/training/folder/ground-truth.txt // 將box文件轉成tiff格式 $ while read p; do tiffcp $p ${p/.box/.tif} done < /path/to/training/folder/ground-truth.txt // 生成unicharset $ unicharset_extractor \ /path/to/training/folder/ground-truth.txt // 生成shapetable $ shapeclustering \ -f \ /path/to/training/folder/shapetable \ -U /path/to/training/folder/unicharset \ /path/to/training/folder/images.txt // 生成有向無環圖 $ mftraining \ -f \ /path/to/training/folder/mftraining \ -U /path/to/training/folder/unicharset \ /path/to/training/folder/images.txt // 組合成tessdata $ cntraining /path/to/training/folder/images.txt $ combine_tessdata /path/to/training/folder/tessdata \ /path/to/training/folder/*.tr
五、tessdata簡體中文
簡體中文是目前在中國最廣泛使用的一種語言文字。因為繁體字符複雜,且大陸地區使用繁體較少,所以更多的OCR系統都使用簡體中文識別,其中tessdata也是。
tessdata簡體中文可以從github或其他網站進行下載,百度網盤也提供了下載服務,通過以下鏈接獲取。
鏈接: https://pan.baidu.com/s/1aUFapwcwcUc70HIWVCgqZw 密碼: kehg
六、tessdata百度網盤
因為tessdata文件較大,下載比較耗時,所以很多人選擇將文件上傳到百度網盤進行分享,以便大家更方便地下載。同時,百度網盤也提供了非常快速的下載速度,具有高速下載的優勢。
tessdata在百度網盤中有多個資源可供下載,包括各語種語言包、字典文件、訓練數據及其他相關資源。以下為一個tessdata的百度網盤資源鏈接:
鏈接: https://pan.baidu.com/s/1s2mVt0ZP3zGMv5YGRmwxbg 密碼: 5mgz
以上是關於tessdata的一些闡述,如果需要使用tessdata進行OCR相關的操作,需要進行相應的下載、訓練及優化。tessdata的效果取決於數據的質量以及訓練效果,如果能夠進行充分的優化,tessdata的識別效果將得到更好的提高。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/312760.html