如何识别pdf中文格式（识别pdf字体格式） - 原点资讯

如何识别pdf中文格式,识别pdf字体格式(1)

最近因为工作的原因，协助某机构对一家企业进行尽职调查，分给我的工作是对几百页的账单进行汇总分析及大额交易，某企业一开始提供了近几年几百页的纸质账单，我尝试着用强大的文字识别工具ABBYY FineReader进行识别，识别后显示的是文本格式，并不能得到我想要的规范表格格式。

在比较短的时间内，我也没有深入去了解及摸索ABBYY FineReader 更深层次的应用，我只好大概统计分析了大额交易数据，并做了汇总的表格交给某机构。

某机构通过法律的角度进行分析，觉得我做的汇总分析还是不够细，建议我对某企业所有的账单进行明细汇总与核算，这么多的纸质账单，显然我是不可能手工计算的，重点是手工计算还容易出错。为了方便智能化核算，我建议某企业须提供电子档的账单。

于是某企业提供了PDF格的账单，我只好花时间摸索ABBYY FineReader更强大的应用。PDF格式如果是Excel或word转换而成的，那么识别的准确率很高，同时识别后的表格，经过手工加工后，可以转换成易于编辑统计的表格型文件，如果PDF格式是图片式的文件，还须手工加水平分隔符、垂直分隔符，然后选中需要识别的区域进行复制。

具体PDF格式文件的转换，我一般是通过两种方法进行转换：

一、将PDF格式的文件，通过【AdobeAcrobat 编辑】打开，然后另存为Excel或Word格式文件，即可以转换成可编辑的Excel或Word文件。这种方法适用于由Excel或Word格式文件转换成PDF格式的文件。

二、通过ABBYY FineReader 识别工具进行识别。默认状态是自动生成文本或带表格格式。如果识别后的格式，不符合自己的要求，可以再通过ABBYY FineReader自带的表格工具进行手工加工，即加水平或垂直的分隔符。最后在复制识别区域的内容到识别结果中，并导出为Excel或Word文档，即可以进行数据处理或文字编辑。

如何识别pdf中文格式,识别pdf字体格式(2)