tessdata:一個強大的OCR字庫

一、tessdata字庫

tessdata作為一個OCR(Optical Character Recognition, 光學字符識別)引擎,它需要一個字庫來進行字符識別。tessdata字庫包含了一個主要的識別引擎和各種語言的字典數據。tessdata字庫由Google公司開源並維護。在字庫方面,tessdata一般分為兩部分,一部分為主要的語言字典以及配置,另一部分則為語言之間的學科術語、特定算法配置以及一些其他上下文相關的字典,可自由選擇性下載並進行使用。

tessdata字庫的下載可通過一些網站進行下載,其中以github作為最常用最方便的方法,而且官方文檔也推薦使用github進行下載。

git clone https://github.com/tesseract-ocr/tessdata.git

二、tessdata中文語言包

眾所周知,tessdata支持多種語言的識別,包括中文,但中文識別過程要比英文複雜得多。中文識別需要一個符合中國特定文化特點的基礎算法,即需要使用中文符號。同時,隨着科技的發展,中文行文字網格處理的速度緩慢,字體複雜,需要進行各種優化來提高識別精度,所以需要下載中文語言包。

中文語言包可從github、百度雲盤及一些其他網站進行下載。其中,github的語言包下載方式與字庫相同,可以克隆tessdata倉庫並單獨下載。

git clone https://github.com/tesseract-ocr/tessdata.git

百度雲盤也提供了下載鏈接,如下:

鏈接: https://pan.baidu.com/s/1ErxNPVmjXmJ70kj5-qQI9g  密碼: zq2s

三、tessdata下載

tessdata的下載可從多個網站進行下載,包括官方網站、github、百度網盤等。官方網站提供了各種語言的可選供下載。github是使用尤其廣泛且方便的一種下載方式。

github的下載方式已經在之前的小標題中提到了,這裡再重複一下。下載tessdata需要進行以下步驟:

  • 進入https://github.com/tesseract-ocr/tessdata
  • 克隆tessdata倉庫
  • 下載對應語言包

四、tessdata訓練

tessdata的識別效果取決於它的訓練效果以及字典數據的質量。一般情況下,根據預設的默認參數,tessdata的效果不一定很好。但在使用不同類型的文本時,可通過進行一些參數的優化和訓練以達到更好的識別效果。

訓練tessdata的大致方式是,先準備好一個大量的訓練數據,並將其分類成文本圖片和非文本圖片。然後,通過將其轉化成.tiff格式進行訓練,並設定好預設參數。最後,tessdata會自動進行逐漸優化的學習過程,以達到更好的識別效果。

以下是一個簡單的訓練tessdata樣例:

// 準備訓練數據
// 生成文件列表
$ find /path/to/training/folder -name "*.jpg" > \
/path/to/training/folder/images.txt
$ find /path/to/training/folder -name "*.box" > \
/path/to/training/folder/ground-truth.txt

// 將box文件轉成tiff格式
$ while read p; do
    tiffcp $p ${p/.box/.tif}
done < /path/to/training/folder/ground-truth.txt

// 生成unicharset
$ unicharset_extractor \
/path/to/training/folder/ground-truth.txt

// 生成shapetable
$ shapeclustering \
-f \
/path/to/training/folder/shapetable \
-U /path/to/training/folder/unicharset \
/path/to/training/folder/images.txt

// 生成有向無環圖
$ mftraining \
-f \
/path/to/training/folder/mftraining \
-U /path/to/training/folder/unicharset \
/path/to/training/folder/images.txt

// 組合成tessdata
$ cntraining /path/to/training/folder/images.txt
$ combine_tessdata /path/to/training/folder/tessdata \
/path/to/training/folder/*.tr

五、tessdata簡體中文

簡體中文是目前在中國最廣泛使用的一種語言文字。因為繁體字符複雜,且大陸地區使用繁體較少,所以更多的OCR系統都使用簡體中文識別,其中tessdata也是。

tessdata簡體中文可以從github或其他網站進行下載,百度網盤也提供了下載服務,通過以下鏈接獲取。

鏈接: https://pan.baidu.com/s/1aUFapwcwcUc70HIWVCgqZw  密碼: kehg

六、tessdata百度網盤

因為tessdata文件較大,下載比較耗時,所以很多人選擇將文件上傳到百度網盤進行分享,以便大家更方便地下載。同時,百度網盤也提供了非常快速的下載速度,具有高速下載的優勢。

tessdata在百度網盤中有多個資源可供下載,包括各語種語言包、字典文件、訓練數據及其他相關資源。以下為一個tessdata的百度網盤資源鏈接:

鏈接: https://pan.baidu.com/s/1s2mVt0ZP3zGMv5YGRmwxbg  密碼: 5mgz

以上是關於tessdata的一些闡述,如果需要使用tessdata進行OCR相關的操作,需要進行相應的下載、訓練及優化。tessdata的效果取決於數據的質量以及訓練效果,如果能夠進行充分的優化,tessdata的識別效果將得到更好的提高。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/312760.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2025-01-06 15:17
下一篇 2025-01-06 15:17

相關推薦

  • Python最強大的製圖庫——Matplotlib

    Matplotlib是Python中最強大的數據可視化工具之一,它提供了海量的製圖、繪圖、繪製動畫的功能,通過它可以輕鬆地展示數據的分布、比較和趨勢。下面將從多個方面對Matplo…

    編程 2025-04-29
  • Python range: 強大的迭代器函數

    Python range函數是Python中最常用的內置函數之一。它被廣泛用於for循環的迭代,列表推導式,和其他需要生成一系列數字的應用程序中。在本文中,我們將會詳細介紹Pyth…

    編程 2025-04-29
  • LuaEP:一款強大的Lua開發框架

    LuaEP是一個集成了可以快速開發web應用程序所需的組件的Lua開發框架。它以Lua語言為基礎,提供了許多常用接口和庫,使得開發者不需要從頭開始編寫web應用程序,而是專註於業務…

    編程 2025-04-28
  • 使用Python構建離線OCR軟件

    本文將介紹如何使用Python構建一個離線OCR軟件。離線OCR軟件能夠將圖片中的文字轉換成文本內容,理論上支持所有語言文字的識別,本文將以中文內容為例。 一、使用Python的t…

    編程 2025-04-27
  • 高德拾取——地圖API中的強大工具

    一、高德拾取介紹 高德拾取是高德地圖API中的一項重要工具,它可以幫助開發者在地圖上快速選擇經緯度點,並提供多種方式來獲取這些點的信息,例如批量獲取坐標的地理位置、測量兩個或多個點…

    編程 2025-04-25
  • React-Icons:強大的圖標庫

    一、React-Icons的介紹 React-Icons 是一個可重用的 React 組件集合,構建了一組常見的圖標,可用於任何 React.js 項目。它為所有的圖標提供了友好的…

    編程 2025-04-25
  • QFileSystemWatcher:文件監測的強大工具

    當我們的應用程序需要及時響應文件系統的變化,比如添加、刪除或修改文件時,我們需要一種方法來實現這一功能。這時,我們就需要使用Qt的類——QFileSystemWatcher。該類能…

    編程 2025-04-25
  • Ubuntu Clang: 強大的編譯器

    Ubuntu Clang 是在 Ubuntu 基礎上提供的 Clang 編譯器版本,與常見的 GCC 編譯器相比,它具有更快的編譯速度,生成的二進制文件也更加優化。本文將從多個方面…

    編程 2025-04-23
  • Free Pascal:一個強大的編程語言和IDE

    Free Pascal是一個適用於不同操作系統的高級編程語言,可以編寫快速可靠的本地代碼和跨平台應用程序。它是免費和開源的,在多個平台上都有廣泛使用。本文將從多個角度對Free P…

    編程 2025-04-23
  • NVIDIA TX2—一款強大的嵌入式AI計算平台

    一、性能概覽 NVIDIA TX2是一款搭載了256核GPU和64位ARM CPU的嵌入式計算平台,擁有超高的計算性能和低功耗特性,是開發AI算法的理想選擇。相比於前一代TX1,T…

    編程 2025-04-23

發表回復

登錄後才能評論