感觉好久没写过 OCR 识别工具了。当然,没写是有原因的,去年 的时侯向大家安利了能调用 N 个大厂接口,一步到位的 PandaOCR。
强大确实很强大,当时我利用集大成的 PandaOCR 一口气申请了 10 余个大厂接口,但用了仅一个月就把它冷落到了电脑角落。
因为对于我这种 OCR 需求量小的用户来说,PandaOCR 的操作显得复杂了些,至少没有 QQ 截图、Quicker 动作实现起来方便。
注意,这里不是说 PandaOCR 识别效果差,识别效果还是要看软件调用的谁家的识别引擎,毕竟无论是白描、天若,还是 QQ 截图、Quicker 动作,归根结底用的都是大厂的接口。
但想白嫖使用大厂的 OCR 服务就不得不考虑一些问题——
要么直接用公用接口,用户一多就会变得不稳定;要么自己申请接口,门槛高,且调用接口的工具特别依赖作者维护。
而且抛开接口不谈,更关键的是用大厂的 OCR 接口需要联网,这对于想本地无网进行 OCR 识别的小伙伴来说很不友好。
所以后面我专门留意了一下支持本地离线 OCR 识别的免费工具,今天安利给有需要的小伙伴。
Umi-OCR
有一说一,知道 Umi-OCR 这个软件的过程其实挺曲折的,前两个月网上不是都在传一个修复版本的天若 OCR 嘛,说是内置有本地的 OCR 模型,可离线使用。
我顺着网线找到了这个修复版本的开源地址。
作者 @唉可悲 在项目介绍里有提到,其实是在 19 年最后开源的天若 OCR 的基础上,内置了「Chinese-lite」和「Paddle-ocr」两种支持本地识别的模型。
其中作者推荐的是 Paddle-ocr,不了解的小伙伴或许会陌生,但我挺耳熟的,因为之前就有小伙伴给我说过。
当时我研究一番无果,就把 PaddleOCR 抛之脑后了,但 PaddleOCR 这个商业团队的开源项目确实很牛,GitHub 上 2.1 万的 Star 绝非浪得虚名。
所以这次见到天若 OCR 本地版后,我又去 GitHub 上搜了一番现成的工具,这才找到了今天的 Umi-OCR。
不过 Umi-OCR 不是传统意义上的「截图-识别-提取文字」的实时工具,而是一个专精批量图片识别的 OCR 软件。
下面和大家说说这个软件怎么用,以及效果如何。
使用步骤
最简单的使用姿势,就是拖拽图片到 UmiOCR 内,然后点击右上角的「开始任务」,等它识别输出文本文件。
当然,选中多张图片,或直接拖拽文件夹导入 UmiOCR 也是 OK 的:
而在 UmiOCR 中,会显示耗时和识别的置信度(可靠程度):
输出的文本文件默认保存在图片的同一级目录,在 UmiOCR 的「识别内容」栏里也能直接查看访问的内容:
而在「设置」栏里,能选择输出的文本格式,以及指定输出的目录和文件名。
当然,OCR 识别工具硬不硬还得看识别效果,我想这也是大家最关心的地方,直接来看结果——
第一张耗时 8 秒的是一个这样的表格文件:
UmiOCR 识别的效果喜人,所有链接都可以直接复制到浏览器正常打开:
第二张耗时 4 秒,是常规的截图,但有排版的需求,可以看出来,识别效果一如既往的稳定:
第三张我增加了难度,从网上找了个手机拍的照片,有对焦不准发虚的问题,也有右下角的阴影。
耗时 6 秒,UmiOCR 的效果是这样的,我一个字一个字对照过了,只错了一处,把「睡觉」的「觉」,识别成了「党」。
有对比才会有伤害,我用 ABBYY 识别了这张图片,UmiOCR 完胜。
最后一张我试了试从百度百科上扒下来的身份证截图,可以看到,在水印的打扰下,UmiOCR 的表现同样不俗,该有的都有,美中不足就是识别了一些水印,但这效果已经够给力了。
你说这些水印打扰能不能无视?有办法的,UmiOCR 独家技能,「设置」栏里有个忽略区域的选项,我们点击「添加区域」。
然后 UmiOCR 会分析你导入的图片,我们只用点击「忽略区域」,然后在图片上拉个框,框里的内容就会在识别过程中跳过。
重新「开始任务」后,水印的内容就消失了。
但美中不足的是,UmiOCR 不支持 Win7,而且只默认识别中英两种语言。
前者没啥办法,后者却有解决方案,因为 PaddleOCR 这个项目是支持多语言的,比如韩文、日文、繁体中文、拉丁文、阿拉伯字母,梵文字母等等模型。
我们可以下载模型,然后自己添加,扩展功能。
还记得之前测试的第二张图嘛,这是作者写的一份说明书,里面除了更换语言模型,还有更新中英模型的方法,写得很详细了,我就不反复造轮子了,如果大家搞不定,我再找时间写个教程。。。
总结
其实就我知道的本地离线 OCR 工具,不只 UmiOCR 一个,但 UmiOCR 真的是我用过效果最好的那个。
至于其他的,怎么说呢,要不然是识别成功率表现不佳,要不然就是使用门槛太高,没有现成好用的工具。
所以挑来挑去,今天这个调用 PaddleOCR 的 Umi-OCR 绝对值得一用。
这是 UmiOCR 的 GitHub 地址:
https://github.com/hiroi-sora/Umi-OCR
这是作者写的说明书:
https://github.com/hiroi-sora/Umi-OCR/blob/main/README.md