tessdata：一個強大的OCR字庫

一、tessdata字庫

tessdata作為一個OCR（Optical Character Recognition，光學字符識別）引擎，它需要一個字庫來進行字符識別。tessdata字庫包含了一個主要的識別引擎和各種語言的字典數據。tessdata字庫由Google公司開源並維護。在字庫方面，tessdata一般分為兩部分，一部分為主要的語言字典以及配置，另一部分則為語言之間的學科術語、特定算法配置以及一些其他上下文相關的字典，可自由選擇性下載並進行使用。

tessdata字庫的下載可通過一些網站進行下載，其中以github作為最常用最方便的方法，而且官方文檔也推薦使用github進行下載。

git clone https://github.com/tesseract-ocr/tessdata.git

二、tessdata中文語言包

眾所周知，tessdata支持多種語言的識別，包括中文，但中文識別過程要比英文複雜得多。中文識別需要一個符合中國特定文化特點的基礎算法，即需要使用中文符號。同時，隨着科技的發展，中文行文字網格處理的速度緩慢，字體複雜，需要進行各種優化來提高識別精度，所以需要下載中文語言包。

中文語言包可從github、百度雲盤及一些其他網站進行下載。其中，github的語言包下載方式與字庫相同，可以克隆tessdata倉庫並單獨下載。

git clone https://github.com/tesseract-ocr/tessdata.git

百度雲盤也提供了下載鏈接，如下：

鏈接: https://pan.baidu.com/s/1ErxNPVmjXmJ70kj5-qQI9g  密碼: zq2s

三、tessdata下載

tessdata的下載可從多個網站進行下載，包括官方網站、github、百度網盤等。官方網站提供了各種語言的可選供下載。github是使用尤其廣泛且方便的一種下載方式。

github的下載方式已經在之前的小標題中提到了，這裡再重複一下。下載tessdata需要進行以下步驟：

進入https://github.com/tesseract-ocr/tessdata
克隆tessdata倉庫
下載對應語言包

四、tessdata訓練

tessdata的識別效果取決於它的訓練效果以及字典數據的質量。一般情況下，根據預設的默認參數，tessdata的效果不一定很好。但在使用不同類型的文本時，可通過進行一些參數的優化和訓練以達到更好的識別效果。

訓練tessdata的大致方式是，先準備好一個大量的訓練數據，並將其分類成文本圖片和非文本圖片。然後，通過將其轉化成.tiff格式進行訓練，並設定好預設參數。最後，tessdata會自動進行逐漸優化的學習過程，以達到更好的識別效果。

以下是一個簡單的訓練tessdata樣例：

// 準備訓練數據
// 生成文件列表
$ find /path/to/training/folder -name "*.jpg" > \
/path/to/training/folder/images.txt
$ find /path/to/training/folder -name "*.box" > \
/path/to/training/folder/ground-truth.txt

// 將box文件轉成tiff格式
$ while read p; do
    tiffcp $p ${p/.box/.tif}
done < /path/to/training/folder/ground-truth.txt

// 生成unicharset
$ unicharset_extractor \
/path/to/training/folder/ground-truth.txt

// 生成shapetable
$ shapeclustering \
-f \
/path/to/training/folder/shapetable \
-U /path/to/training/folder/unicharset \
/path/to/training/folder/images.txt

// 生成有向無環圖
$ mftraining \
-f \
/path/to/training/folder/mftraining \
-U /path/to/training/folder/unicharset \
/path/to/training/folder/images.txt

// 組合成tessdata
$ cntraining /path/to/training/folder/images.txt
$ combine_tessdata /path/to/training/folder/tessdata \
/path/to/training/folder/*.tr

五、tessdata簡體中文

簡體中文是目前在中國最廣泛使用的一種語言文字。因為繁體字符複雜，且大陸地區使用繁體較少，所以更多的OCR系統都使用簡體中文識別，其中tessdata也是。

tessdata簡體中文可以從github或其他網站進行下載，百度網盤也提供了下載服務，通過以下鏈接獲取。

鏈接: https://pan.baidu.com/s/1aUFapwcwcUc70HIWVCgqZw  密碼: kehg

六、tessdata百度網盤

因為tessdata文件較大，下載比較耗時，所以很多人選擇將文件上傳到百度網盤進行分享，以便大家更方便地下載。同時，百度網盤也提供了非常快速的下載速度，具有高速下載的優勢。

tessdata在百度網盤中有多個資源可供下載，包括各語種語言包、字典文件、訓練數據及其他相關資源。以下為一個tessdata的百度網盤資源鏈接：

鏈接: https://pan.baidu.com/s/1s2mVt0ZP3zGMv5YGRmwxbg  密碼: 5mgz

以上是關於tessdata的一些闡述，如果需要使用tessdata進行OCR相關的操作，需要進行相應的下載、訓練及優化。tessdata的效果取決於數據的質量以及訓練效果，如果能夠進行充分的優化，tessdata的識別效果將得到更好的提高。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/312760.html