創作立場聲明:本人長年熱衷於挖掘各種好玩有趣或稀奇古怪的電腦軟件和手機 App,寫文科生都能看得懂玩得轉的玩機教程,期待和大家的深入探討交流。
今天來反思一下關於 OCR 這一塊的問題。
5 月底,給大家安利了天若 OCR 的最後一個開源版本 5.0,但我一直心中有愧。
一方面我的需求沒有那麼大,把一直用着的天若拉出來其實有點取巧,真正偶爾用一次的情況下,完全可以用 QQ 自帶的文字識別。
另一方面天若那個版本兩三年沒更新了,作者跑去維護別的項目去了,雖然說是接受百度、搜狗、騰訊、有道四個接口。
但公共接口掛了兩個(騰訊、百度),而真正支持用自己申請的接口只有百度一個。
看很多小夥伴其實對百度這個接口並不買單,這是我有愧的地方。
畢竟咱偶爾分享一個應用,就是想讓更多人了解到更好用的軟件,違背了初衷我可不幹。
好在那次摸索的 OCR 的時候,了解到 PandaOCR 可以支持多個自定義接口。
怎麼說呢,就很強大。
作者也是個爆肝強人,每逢節假日還在那裡更新迭代,比起早早退出舞台的天若 5.0 更值得拿出來說道說道。
這不,它來了。
PandaOCR
額,今天介紹的版本是 PandaOCR 2.71。
這大概是最後一個免費提供多自定義接口的版本了。

前幾天去 GitHub 上翻 PandaOCR 的時候,發現多了個 Pro 版本。
作者原話,因為前期急着上新功能,結果忽視了執行邏輯混亂以及後續維護成本高的問題。
換句話說,就是作者把舊版的代碼定性成屎山了。
與其滿頭大漢(不是錯字)的折磨自己,不如重構一遍,跳過那座山,然後就有了 Pro 版。
這是 PandaOCR Pro 5.32:

可問題是 Pro 版只提供有百度的自定義接口,別的接口都成收費服務了。
所以,各種意義上說,PandaOCR 2.71 就成了能免費使用的最後一個版本。
不過作者說啊,這最後一個版本只是不上新功能了,已有的功能接口仍會維護。
對於絕大部分人來說,這就夠了,比如我。
如果你真心喜歡這個濃眉大眼小熊貓,還是可以給作者支持一波。
能做什麼
一款集大成的 OCR 工具有什麼用?
對於文本識別質量而言,那是接口的對比,如果弄不太明白的,可以看看天若 OCR 的那篇文章。
就識別效果而言,搜狗的準確率高些,百度手寫識別的效果更好,有道的識別速度更快,訊飛和 Mathpix 的公式識別更清晰,百度的表格識別也不錯。
所以拋開接口,回歸到 PandaOCR 自身,它提供了怎樣的方便,才是我們該關心的。
我們重新認識一下它的界面,左邊顯示圖片,右邊則是識別文本和翻譯框,外加一個功能欄:

操作起來很方便,默認快捷鍵「F4」截圖,然後就能調用你選擇的接口自動識別。

識別的內容會顯示在桌面,以彈窗的形式顯示,至於顯示的內容,可以在「高級」設置中選擇。

當然,高級設置里能更改更多東西,比如是否監聽剪切板,是否自動複製識別的內容,甚至字體、截圖方式等等。

雙擊 PandaOCR 的識別和翻譯那一塊,還會有驚喜,打開監聽剪切板,分分鐘變成一個翻譯軟件。

對了,還有個固定截圖的功能,簡單的說,就是把截圖框固定到桌面一處,然後快捷鍵觸發 OCR 識別。
我看 B 站上已經有人拿它來做遊戲機翻工具了,效果是這樣的。

我就不重複造輪子了,感興趣的可以去研究一下。
PandaOCR 之所以強大,還是因為它支持的接口多,那它到底能使用什麼接口呢?
我從它配置文件里看了一下:
支持通用識別:搜狗 + 騰訊 + 百度 + 有道 + 阿里 + 訊飛 + 網校 + SpaceOCR
支持手寫識別:騰訊 + 百度 + 阿里 + 訊飛
支持公式識別:微軟(演示)+ 百度 + 騰訊 + Mathpix + 訊飛
支持表格識別:有道(演示)+ 百度 + 騰訊 + 阿里
支持翻譯:搜狗 + 騰訊 + 百度 + 有道 + 彩雲小譯 + DeepL
是不是看的都有些怵的慌,事實上早先版本的接口更多,最後一個版本應該刪除了近 20 個接口。
但設置起來並不麻煩,右鍵點擊左上角的圖標,選擇「編輯配置」,在文本中更改對應的接口就行。

至於怎麼申請接口,又要放哪裡,我這裡還是以百度為例,介紹一下。
申請接口
進入百度 AI 開放平台,註冊登錄個賬號先。

然後在「人工智能」找到「OCR 文字識別」里的「通用場景文字識別」。

當然你也可以在這裡找到「OCR 文字識別」:

反正流程不變,選擇「創建應用」。

然後「應用名稱」和「應用描述」都隨便填,記得「應用歸屬」選擇個人。

最後立即創建,從「應用列表」把 API Key 和 Secret Key 記錄下來。

總結一下申請流程,就是註冊登錄 – 申請 – 填信息 – 開通 – 複製 ID 和密鑰 – 在 Panda 中粘貼-重載配置文件。

就是中間這個粘貼步驟,PandaOCR 的格式一直是「ID | KEY」,豎線前後都有個空格,最容易出錯的就是這裡了。
縱觀整個流程,相信我,真的沒有你想的那麼難。
我就不光明正大藉著申請接口來水字了,再簡單說說接口免費額度以及注意事項。
百度
我以前見過的這種類似的工具,一般給的接口都是百度的。
無他,實在是百度給的免費額度太多了,通用 OCR 識別的每日額度高達 5 萬。
可惜,這些都成了過往雲煙,5 月底的時候百度把額度改成了未實名 200 次/月,實名 1000 次/月。
所以百度的接口再也不是最香的了,但百度的手寫識別還是挺給力的。
免費額度如下:
通用識別 1000 次/月,高精度通用識別 1000 次/月,表格識別 500 次/月,手寫識別 500 次/月,通用翻譯免費。
騰訊
騰訊雲在開通識別時,有個營業執照,那個不管它,直接選確定就行。
還有就是需要自己申請一下密鑰(賬號信息-訪問管理),不過那個騰訊雲的翻譯,現在好像只能使用 API 參數調用,PandaOCR 應該是用不成了。
至於免費額度,騰訊雲的 OCR + 表格 + 公式接口共用 1000 次/月,翻譯 5 百萬/月。
搜狗
搜狗沒有免費額度,而是直接按次收費的,能免費用的點在於剛開始送的 100 元新用戶註冊券。

而且作者說是得充點錢才能用,我往裡充了一塊錢,正在白嫖那 100 元的新人福利。
有道
和搜狗一樣是按量收費的,新人福利 50 元。
阿里
阿里雲的 OCR 也是按次收費的,最大的優惠應該是不可重複購買的那個每 500 次 0.01 元了。

SpaceOCR
每月有 2.5 萬次的免費額度,不過是個國外的網站,郵箱註冊(親測 QQ 郵箱可用),看不懂的直接機翻就行。

網校
也就是好未來,PandaOCR 只提供了好未來 OCR 的接口,沒有翻譯接口,所以翻譯那個就不用添到項目里了。
免費額度都是每日 100 次,手寫也是百次(過去好像是每日 10 萬,哭了)。
訊飛
訊飛的 OCR 識別的免費形式,是 90 天的 10 萬次使用,時間到或者用完即止。

DeepL
不陌生吧,翻譯里的 yyds,它家 API 的免費額度為每月 50 個字符。
但是,亞洲只有個日本,街道那把我給尬住了,所以我放棄了,溜。
Mathpix
註冊登錄沒啥的,免費額度每月 1000 次的公式識別,但是創建項目時需要 1 美元的手續費,所以這就意味着你得用到信用卡。
總結
PandaOCR 這個工具,不僅可以像常規 OCR 工具那樣截圖識別,固定截圖和複製翻譯的功能給了它更多的可能。
拿來翻譯論文、做機翻工具都可以,而這都源於大廠的提供的接口。
PandaOCR 就像是一個中間的掮客,把大廠資源彙集一處,帶來了全新的可能。
不過有一說一,現在白嫖大廠資源是越來越難了。
但要說缺點的話,就是這玩意用起來太複雜了。
但可能很長一段時間,我的 OCR 工具都不會改了,為了寫這一篇文章,我把所有的接口都申請了一遍,不過也算有所得。
下回碰到更好用的OCR,估計我就轉投付費軟件的陣營了。
這一篇到這裡就結束了,我們有緣下篇再見咯。
本文首發於程序員不高興,未經授權請勿轉載!
一如既往感謝各位小夥伴的支持和關注!
原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/223239.html