在过去,扫描好的文件一般以JPG形式保存,然后用组合工具组成PDF文件,或者用Adobe Acrobat Professional从多个文件建立PDF,在Adobe Acrobat Professional 7.0以前的版本中,由于OCR的算法没有突破,只能对英文进行OCR识别,而且识别率不高,对中文干脆就无法识别,因此只能以图像形式保存,无论如何压缩,文件大小都不会太少,要么牺牲观赏性,要么为了方便观察体积就无法缩小。关键的一点是没有办法搜索,例如搜索一个文件的内容就好无办法,一个文件小还好办,如果很多页,就只能一页一页看下去,查找一个故障代码简直成了灾难。 好在Adobe Acrobat Professional 8.0的出现彻底解决了这个问题,现在最新的版本是8.1.2,官方中文版直接支持OCR中文识别。 先来说一下为什么要使用OCR识别。OCR识别就是把图像文字转换成文本文字,字节数自然下降很多。如果以JPG方式转换成PDF文件,那么每一页都是一个独立的图像,而OCR识别后,把应该是图像的部分继续以图像形式保存,而文本部分则识别成纯文本,这样,同样的文本仅仅保存一个,例如,每页都有3个“我们”,整本书有200个“我们”,而PDF则建立一个库,把我们保存,在出现我们的地方用一个代码表示,这样就减少了199个我们的字节量;同样对于相同的图像,图层和背景都会用这种方法保存,这就是文件大小减少的主要原因。OCR识别还有更重要的好处就是搜索功能的有效,PDF READER版本从7.0以后,都拥有搜索功能,输入关键词,自动会列出关键词检索列表,可以快速引导我们去浏览。如果都能把扫描后的文件进行识别,那么就跟原版PDF无异了,这样可以大大方便我们搜索,并且使扫描保存成PDF成为十分有意义的,而不像以前,不能检索也就可有可无的。 下面以Adobe Acrobat 8 Professional 为例介绍如何扫描识别和优化文档: 1、首先是扫描: 扫描分为三种形式几种方式,下面逐步介绍优劣。 1)用扫描软件直接扫描成PDF文件: 几乎每个扫描仪的驱动程序都带有直接扫描成PDF文件的功能,当然老版本的扫描仪是没有的,价格太低的也是没有的,如果一年扫描不了几页,对扫描仪的要求不是很严格,像我这样一年要扫描2、3万页的来说,对扫描仪的要求就很高,关键是速度,300DPI的灰度扫描速度我现在用的是15秒,6年前的产品,当时很贵。 下面就是扫描软件界面 现在来说明一下。原稿一般选择文档,当然通过不同的选择可以获得不同的扫描算法和修正。扫描类型就是选择彩色、WEB彩色,灰度还是黑白,这对文档的大小起着至关重要的作用,彩色自然逼真,但文档大小也大,对识别也不是很好,因此,一般的彩色图像用灰度扫描就可以了,偶尔几页用全彩色扫描也未尝不可,高识别率自然是黑白,也是文档大小最小的。输出目的我们选择OCR识别,也就是分别率300DPI,注意,分别率越高识别率越高,文件越大速度越慢,我测试过黑白扫描,300DPI的汉字识别率可以达到90%,600DPI黑白扫描的识别率可以达到近似100%,但扫描速度却相差20倍,所以,几页关键的文档可以采用600DPI,否则300足以,200DPI的识别率只有10%-30%,建议不要采用,对缩小文件大小没有帮助。
如果采用黑白扫描,则调整不可用,灰度和彩色调整可用,可以调整背景明暗对比和亮度,这样可以消除网纹和背景。 点击预览后,可以选择扫描区域,点击扫描就有很多种选择 如果选择PDF格式保存,则选择将多幅图片保存在一个文件,这样便于连续扫描。如果扫描终止,则该文件不能增加,只能另外起名保存了。这个功能很方便,可以把连续扫描的文件保存在同一个PDF文件下,省去了转换合并的步骤,但也有缺点,就是扫描过程中由于占用大量的资源,电脑配置不好或者软件配置问题,会造成死机,如果出现这种情况,前面扫描的文件也有坏掉了,打不开,只能重新扫描,所以在扫描一定数量后结束扫描以便保存。我的1G内存的电脑,打开可以连续扫描200页左右,如果后台有其他程序运行,也就只能扫描60-120页,否则就不敢保证了。后面的保存后将图片自动发送到应用程序可以方便的把文件用你选择的应用程序打开,进行进一步的处理,我这里选择的是Adobe Acrobat ,当然,也可以不选择,以后处理。
也可以选择以图像保存,例如JPG,然后选择对连续扫描的图像以增加序号的方式自动给出文件名,这样每个文件的文件名依次是“你起的文件名”-1.jpg,“你起的文件名”-2.jpg......等等,这样就是单个扫描了,即使出现问题,也只不过就是你的最后一个扫描文件不能使用而已,比较安全,但这样做的扫描分辨率不能低于400DPI。 我这里选择保存为PDF格式,选择的是灰度300DPI,然后确认,开始扫描,第一页扫描结束后,出现对话框 放好下一页,点击继续,继续扫描,测试扫描了2页,然后点击关闭。扫描驱动经过保存后,启动Adobe Acrobat 打开刚才的扫描文件:
这个时候,扫描后的文件大小是 这是300DPI灰度,A4幅面2页的大小。
在Adobe Acrobat 打开的文件中,我们选用文本选择工具,在文档上点击,这样整篇文档都会变成选择高亮色,
鼠标右键,选择快捷菜单的使用OCR识别文本 出现识别文本对话框,选择识别本页还是全部页,一定注意,Adobe Acrobat 默认的识别文字是英文,我们要在编辑中选择简体中文,然后确认。
这个时候,OCR开始自动处理并进行识别,要说明的是,如果扫描过程中,特别是很厚的书,左右下角容易出现黑边或者文档倾斜,OCR识别可以自动校正这个倾斜,黑边只要不影响文字的准确与完整,就可以不予理睬。
|