教你把纸质版的文件文档变成电子版的,这就是专业一点讲的文档扫描识别,通过把纸质版的文档通过扫描仪扫描后,变成图片,在通过OCR软件,将扫描出的文档图片识别转化成可编辑的电子文档(诸如:word,Excel,PDF等)。
刚毕业那会,胸无大志,没想过买房买车娶老婆,只想安稳舒适。选了一个文职工作。可是接手工作以后才发现,文职不代表轻松。老同事也会经常抱怨,整天都是一打纸质版文件,手敲成电子版。与我想的写写文案,喝喝茶,聊聊办公室八卦的生活完全不符,反而成了人都打字机,个把月下来,手残了,眼花了,脸绿了,工资也没了。当时多希望自己是孙悟空把纸质版文件转化成电子版,当然孙大圣可能也不认识这么多字吧,哈哈。后来也有老同事会介绍用word自带的组件,通过把纸质版的文件拍照后,上传到电脑里,通过office软件来识别。
我试过,少量的文件用这种方案的确挺不错,不过大批量的纸质文件转化成电子版的也是够呛。后来我也在想,这么牛逼的纸质版文件转化成电子版的技术,为什么不搞一个专门的设备,拍照,识别一体。
手贱,好奇心重的我就开始研究这么牛逼的功能的来历了。后来我发现;这项技术竟然是国产的,有图为证:
在这里我就要跟大家讲解下TH-OCR了,TH-OCR技术是清华大学智能图文室研究出来的技术,后来以商业模式推向社会,先是清华紫光,后独立出来北京文通,再后来就由奥普思凯独立负责。目前也有针对文档识别(纸质文件拍照变成电子文件)专门的产品,针对不同的情况分为软硬一体的设备和纯软件的设备供用户选择。
硬件是扫描仪,不用再对纸质版的文件拍照了,通过扫描仪,扫描纸质版的文件后,再经过TH-OCR的识别,就能将纸质版文件转化成电子版的了。
纯软件的不带扫描仪,可以针对拍照来的图片,扫描到的文件都可以转化成可编辑的电子版文件,方便了很多。
现在我已经是OCR识别方面的专家了,对这块的设备也比较了解。有什么都可以咨询。不想你们再走我走过的弯路。
文通技术支持:郑明辉:壹叁叁柒壹陆贰壹壹贰玖