最近因为工作的原因,协助某机构对一家企业进行尽职调查,分给我的工作是对几百页的账单进行汇总分析及大额交易,某企业一开始提供了近几年几百页的纸质账单,我尝试着用强大的文字识别工具ABBYY FineReader进行识别,识别后显示的是文本格式,并不能得到我想要的规范表格格式。
在比较短的时间内,我也没有深入去了解及摸索ABBYY FineReader 更深层次的应用,我只好大概统计分析了大额交易数据,并做了汇总的表格交给某机构。
某机构通过法律的角度进行分析,觉得我做的汇总分析还是不够细,建议我对某企业所有的账单进行明细汇总与核算,这么多的纸质账单,显然我是不可能手工计算的,重点是手工计算还容易出错。为了方便智能化核算,我建议某企业须提供电子档的账单。
于是某企业提供了PDF格的账单,我只好花时间摸索ABBYY FineReader更强大的应用。PDF格式如果是Excel或word转换而成的,那么识别的准确率很高,同时识别后的表格,经过手工加工后,可以转换成易于编辑统计的表格型文件,如果PDF格式是图片式的文件,还须手工加水平分隔符、垂直分隔符,然后选中需要识别的区域进行复制。
具体PDF格式文件的转换,我一般是通过两种方法进行转换:
一、将PDF格式的文件,通过【AdobeAcrobat 编辑】打开,然后另存为Excel或Word格式文件,即可以转换成可编辑的Excel或Word文件。这种方法适用于由Excel或Word格式文件转换成PDF格式的文件。
二、通过ABBYY FineReader 识别工具进行识别。默认状态是自动生成文本或带表格格式。如果识别后的格式,不符合自己的要求,可以再通过ABBYY FineReader自带的表格工具进行手工加工,即加水平或垂直的分隔符。最后在复制识别区域的内容到识别结果中,并导出为Excel或Word文档,即可以进行数据处理或文字编辑。
当然网上还有其他付费的识别工具,只要适合就可以安装使用。但我还平时用得最多的还是ABBYYFineReader。
本文为原创,未经许可禁止转载。
VivianLin 编辑于2021年6月12日,欢迎留言与转发,感兴趣的朋友也可以在后台私信讨论。