
朋友工作总要找资料什么的,大多是 pdf 扫描版格式,无法复制,需要转成 word 或者文字,但由于其人穷,又不买那些 pdf 在线转换 word 的工具。得知后,帮助开发一个工具给她使用。
node test/ocr.test.js (图片文字提取)node test/pdf.test.js ( PDF 文字提取)

本项目基于百度 AIP 平台,OCR 接口
这个简单,直接走百度 OCR 即可得到结果。node.js 调用 SDK 而已
这个通过pdfinfo 工具 + GraphicsMagick 来实现,pdfinfo 获取 pdf 文件信息(分页信息等),GraphicsMagick 将 pdf 作为图片(处理图片很强大)。
这个麻烦是在 pdfino 工具是无法获取 pdf 文件信息的,需要代码做兼容情况处理。扫描版 PDF 最终还是转换图片后再 OCR 提取文字。
详细使用方式阅读README.md
https://github.com/giscafer/easyocr
欢迎━(`)ノ亻!学习交流
1 lucky2Javascript Sep 7, 2018 能说下原理吗?草体字能识别不 |
2 sean10 Sep 7, 2018 via Android @leeseeanchiu 原理作者也说了,调的百度 OCR 的 SDK,百度有支持草体识别的话,就能识别 |
3 scmod Sep 7, 2018 楼主是直接购买了那个识别服务吗?我记得免费有个试用上限来着. |
4 giscafer OP @scmod 我用的是免费版, |
5 giscafer OP |
6 jimmy2010 Sep 7, 2018 感谢,恰好能用到。 |
8 nicolasleohu Oct 8, 2018 赞啊~准确率能达到多少? |
9 giscafer OP @nicolasleohu 准确率依赖百度 OCR 接口,我用的是基础免费版的,高精准的每天次数不多。 没有公式和代码等图片的识别准确率达到 99%以上。 |
10 nicolasleohu Oct 23, 2018 @giscafer 噢噢,了解了 |