[原创]PDF文件的扫描与制作及优化

郑振寰 · 发表于 2008-2-17 13:04

在过去，扫描好的文件一般以JPG形式保存，然后用组合工具组成PDF文件，或者用Adobe Acrobat Professional从多个文件建立PDF，在Adobe Acrobat Professional 7.0以前的版本中，由于OCR的算法没有突破，只能对英文进行OCR识别，而且识别率不高，对中文干脆就无法识别，因此只能以图像形式保存，无论如何压缩，文件大小都不会太少，要么牺牲观赏性，要么为了方便观察体积就无法缩小。关键的一点是没有办法搜索，例如搜索一个文件的内容就好无办法，一个文件小还好办，如果很多页，就只能一页一页看下去，查找一个故障代码简直成了灾难。

好在Adobe Acrobat Professional 8.0的出现彻底解决了这个问题，现在最新的版本是8.1.2，官方中文版直接支持OCR中文识别。

先来说一下为什么要使用OCR识别。OCR识别就是把图像文字转换成文本文字，字节数自然下降很多。如果以JPG方式转换成PDF文件，那么每一页都是一个独立的图像，而OCR识别后，把应该是图像的部分继续以图像形式保存，而文本部分则识别成纯文本，这样，同样的文本仅仅保存一个，例如，每页都有3个“我们”，整本书有200个“我们”，而PDF则建立一个库，把我们保存，在出现我们的地方用一个代码表示，这样就减少了199个我们的字节量；同样对于相同的图像，图层和背景都会用这种方法保存，这就是文件大小减少的主要原因。OCR识别还有更重要的好处就是搜索功能的有效，PDF READER版本从7.0以后，都拥有搜索功能，输入关键词，自动会列出关键词检索列表，可以快速引导我们去浏览。如果都能把扫描后的文件进行识别，那么就跟原版PDF无异了，这样可以大大方便我们搜索，并且使扫描保存成PDF成为十分有意义的，而不像以前，不能检索也就可有可无的。

下面以Adobe Acrobat 8 Professional 为例介绍如何扫描识别和优化文档：

1、首先是扫描：

扫描分为三种形式几种方式，下面逐步介绍优劣。

1）用扫描软件直接扫描成PDF文件：

几乎每个扫描仪的驱动程序都带有直接扫描成PDF文件的功能，当然老版本的扫描仪是没有的，价格太低的也是没有的，如果一年扫描不了几页，对扫描仪的要求不是很严格，像我这样一年要扫描2、3万页的来说，对扫描仪的要求就很高，关键是速度，300DPI的灰度扫描速度我现在用的是15秒，6年前的产品，当时很贵。

下面就是扫描软件界面

现在来说明一下。原稿一般选择文档，当然通过不同的选择可以获得不同的扫描算法和修正。扫描类型就是选择彩色、WEB彩色，灰度还是黑白，这对文档的大小起着至关重要的作用，彩色自然逼真，但文档大小也大，对识别也不是很好，因此，一般的彩色图像用灰度扫描就可以了，偶尔几页用全彩色扫描也未尝不可，高识别率自然是黑白，也是文档大小最小的。输出目的我们选择OCR识别，也就是分别率300DPI，注意，分别率越高识别率越高，文件越大速度越慢，我测试过黑白扫描，300DPI的汉字识别率可以达到90%,600DPI黑白扫描的识别率可以达到近似100%，但扫描速度却相差20倍，所以，几页关键的文档可以采用600DPI，否则300足以，200DPI的识别率只有10%-30%，建议不要采用，对缩小文件大小没有帮助。

如果采用黑白扫描，则调整不可用，灰度和彩色调整可用，可以调整背景明暗对比和亮度，这样可以消除网纹和背景。

点击预览后，可以选择扫描区域，点击扫描就有很多种选择

如果选择PDF格式保存，则选择将多幅图片保存在一个文件，这样便于连续扫描。如果扫描终止，则该文件不能增加，只能另外起名保存了。这个功能很方便，可以把连续扫描的文件保存在同一个PDF文件下，省去了转换合并的步骤，但也有缺点，就是扫描过程中由于占用大量的资源，电脑配置不好或者软件配置问题，会造成死机，如果出现这种情况，前面扫描的文件也有坏掉了，打不开，只能重新扫描，所以在扫描一定数量后结束扫描以便保存。我的1G内存的电脑，打开可以连续扫描200页左右，如果后台有其他程序运行，也就只能扫描60-120页，否则就不敢保证了。后面的保存后将图片自动发送到应用程序可以方便的把文件用你选择的应用程序打开，进行进一步的处理，我这里选择的是Adobe Acrobat ，当然，也可以不选择，以后处理。

也可以选择以图像保存，例如JPG，然后选择对连续扫描的图像以增加序号的方式自动给出文件名，这样每个文件的文件名依次是“你起的文件名”-1.jpg,“你起的文件名”-2.jpg......等等，这样就是单个扫描了，即使出现问题，也只不过就是你的最后一个扫描文件不能使用而已，比较安全，但这样做的扫描分辨率不能低于400DPI。

我这里选择保存为PDF格式，选择的是灰度300DPI，然后确认，开始扫描，第一页扫描结束后，出现对话框

放好下一页，点击继续，继续扫描，测试扫描了2页，然后点击关闭。扫描驱动经过保存后，启动Adobe Acrobat 打开刚才的扫描文件：

这个时候，扫描后的文件大小是这是300DPI灰度，A4幅面2页的大小。

在Adobe Acrobat 打开的文件中，我们选用文本选择工具，在文档上点击，这样整篇文档都会变成选择高亮色，

鼠标右键，选择快捷菜单的使用OCR识别文本
出现识别文本对话框，选择识别本页还是全部页，一定注意，Adobe Acrobat 默认的识别文字是英文，我们要在编辑中选择简体中文，然后确认。

这个时候，OCR开始自动处理并进行识别，要说明的是，如果扫描过程中，特别是很厚的书，左右下角容易出现黑边或者文档倾斜，OCR识别可以自动校正这个倾斜，黑边只要不影响文字的准确与完整，就可以不予理睬。

郑振寰 · 发表于 2008-2-17 13:29

识别完成后，我们再用文本选择工具选择文本，这个时候就不是整页高亮度显示了，而是在文本的地方显示选中高亮度
我们把选中的高亮度文本复制，然后粘贴到记事本中，看到如下的情景：
这就是识别后的文本，注意的是，氦气识别成了氨气，这是一个错误，如果是600DPI，就不会有这个错误了，好在这一个错误我们是可以修正的。

然后保存文件，我这里选择的是优化PDF保存，

保存后的大小是
呵呵，只有170K，如果是黑白扫描，识别优化后的大小不会超过100K。

在Adobe Acrobat 中，创建PDF文档，选择从多个文档创建，

就会出现下列界面，
在选择文件中，把要合并的文件都选择上，也可以选择整个要合并的文件夹，进行文件排序后，选择下面的文件大小，如果是图像文件，请选择默认或者较大文件大小，因为要进行识别，所以不可以文件太小，否则丢失信息太多造成识别无效。如果是多个识别后的PDF文件识别，则直接可以选择较小文件，然后下一步按照步骤操作即可。

利用这种识别方式，也可以对以前扫描好的PDF文件进行识别，要提醒的是，如果以前扫描的分辨率低于300DPI，则识别率不高，错误和乱码是家常便饭，优化后的文件大小反而会比原文件大。

在Adobe Acrobat 中也可以直接利用扫描仪创建，

如上图，选择好里面的设置即可连续扫描，具体设置就不详细讲了，自己去看看就是。

扫描仪选项最好选择内存模式，这样可以利用大内存提高速度，但由于内存的大小决定了一次连续扫描的页数，本机模式速度会变慢，因为边扫边存速度肯定会受影响。

注意的是，文档优化的选项最好选择自动，或者你十分精通设置，否则会适得其反，文件会很大。

采用这种直接扫描，根据电脑的配置，不可以连续多页扫描，否则会造成突然死机前功尽弃，我的1G内存，P4 2G的配置，也只敢扫描60页左右，否则就死掉了，如果没有其他软件后台运行，内存满了之后，会自动停止扫描进行文件的识别。

大概就这些了，祝你们好运。

郑振寰 · 发表于 2008-2-17 13:32

识别后的文件，我们利用搜索功能看看它的好处，

打开搜索，输入“包装”两个汉字，然后点击搜索，出现下面的界面

看到了吧，直接点击搜索栏的内容，可以快速导航到你想要查看的页面。这就是OCR的最大用途，不仅仅是减少文件大小。

sio2 · 发表于 2008-2-17 14:18

多谢楼主发贴，我去找个8.0版本的acrobat professional来用。我现在还是用7.0版本的。

冰雪木子 · 发表于 2010-6-1 16:22

看了，对我很有帮助，谢谢。

站站站 · 发表于 2011-7-17 09:06

实用资料、收藏！！！

spnet · 发表于 2014-8-21 15:36

谢谢分享

		自动登录	找回密码
密码			立即注册

[原创]PDF文件的扫描与制作及优化

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块