我们以一个双层pdf文件为例具体说明。
我们打开一个pdf文件。很显然,这个pdf文件中的每个页面,是对原图书进行扫描后得到的,每个页面都是一张图片。如果想要将其中的文字内容通过传统方法,进行复制和粘贴,一般情况下是无法做到的。但这个文件经过了我们的加工处理,我们可以神奇地选择图片中的文字,将其复制,然后粘贴到其它程序,重复利用。
这到底是怎么做到的?今天就为大家演示。
但开始之前,我们先看一下常见的pdf文件有哪些类型。我们常见的PDF文件根据文件的来源分为三种不同的类型。
1、真正的pdf文件,或通过数字方法创建的PDF
数字创建的PDF,也被称为真正的PDF文件,是使用诸如Microsoft Word、Excel,或通过软件应用程序中的虚拟打印机“打印”功能创建的,由文本和图像组成。
文本中的字符和元信息都是正常的数码字符。我们可以正常地选择、复制文件中的字符,将其粘贴到其他应用中使用,同时,我们可以轻松地搜索PDF文件中的内容。
2、经扫描而成的“仅图像”PDF文件
使用扫描仪扫描纸质文档,或者将相机图像或其他格式图像转换成而成的PDF文件。这种方法制作的pdf文档,内容会被“锁定”在图像中。这种只包含图像的PDF文档中只有扫描或拍摄的页面图像,没有底层的文本层,无法对文本进行复制粘贴等操作,不能进行搜索和查找。国内大多数的扫描而成的pdf文档都属于这种类型。