word转pdf的DPI-请问:如果把书上的文字用扫描仪扫到电脑上,文字是否...

2022-12-12 02:04:00

请问:如果把书上的文字用扫描仪扫到电脑上,文字是否...

扫描文字，结果以图片格式(.bmp)存入电脑。然后使用orc识别系统进行转换，最终用word进行修改编辑。下面教你如何使用orc:

ocr是英文optical character recognition的缩写，翻译成中文就是通过光学技术对文字进行识别的意思, 是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术，是与扫描仪配套的主要软件，属于非键盘输入范畴，需要图像输入设备主要是扫描仪相配合。现在ocr主要是指文字识别软件，在1996年清华紫光开始搭配中文识别软件之前，市场上的扫描仪和ocr软件一直是分开销售的，专业的ocr软件谠缧┦焙蚵舻帽壬�枰腔挂�蟆k孀派�枰欠直媛实奶嵘��ocr软件也在不断升级，扫描仪厂商现在已把专业的ocr软件搭配自己生产的扫描仪出售。ocr技术的迅速发展与扫描仪的广泛使用是密不可分的，近两年随着扫描仪逐渐普及和ocr技术的日臻完善，ocr己成为绝大多数扫描仪用户的得力助手。

一、ocr技术的发展历程

自20世纪60年代初期出现第一代ocr产品开始，经过30多年的不断发展改进，包括手写体的各种ocr技术的研究取得了令人瞩目的成果，人们对ocr产品的功能要求也从原来的单纯注重识别率，发展到对整个ocr系统的识别速度、用户界面的友好性、操作的简便性、产品的稳定性、适应性、可靠性和易升级性、售前售后服务质量等各方面提出更高的要求。

ibm公司最早开发了ocr产品，1965年在纽约世界博览会上展出了ibm公司的ocr产品――ibml287。当时的这款产品只能识别印刷体的数字、英文字母及部分符号，并且必须是指定的字体。20世纪60年代末，日立公司和富士通公司也分别研制出各自的ocr产品。全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的，两年后nec公司也推出了同样的系统。到了1974年，信函的自动分拣率达到92％左右，并且广泛地应用在邮政系统中，发挥着较好的作用。1983年日本东芝公司发布了其识别印刷体日文汉字的ocr系统ocrv595，其识别速度为每秒70～100个汉字，识别率为99．5％。其后东芝公司又开始了手写体日文汉字识别的研究工作。

中国在ocr技术方面的研究工作相对起步较晚，在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究，20世纪70年代末开始进行汉字识别的研究。1986年，国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文ocr软件的开发工作。至1989年，清华大学率先推出了国内第一套中文ocr软件--清华文通th-ocr1.0版，至此中文ocr正式从实验室走向了市场。清华ocr印刷体汉字识别软件其后又推出了th-ocr 92高性能实用简／繁体、多字体、多功能印刷汉字识别系统，使印刷体汉字识别技术又取得重大进展。到1994年推出的th-ocr 94高性能汉英混排印刷文本识别系统，则被专家鉴定为“是国内外首次推出的汉英混排印刷文本识别系统，总体上居国际领先水平”。上个世纪90年代中后期，清华大学电子工程系提出并进行了汉字识别综合研究，使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具有代表性的成果是th-ocr 97综合集成汉字识别系统，它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。几年来，除清华文通th-ocr外，其它如尚书sh-ocr等各具风格的ocr软件也相继问世，中文ocr市场稳步扩大，用户遍布世界各地。

可以说目前印刷体ocr的识别技术已经达到较高水平。ocr产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号，发展成为可以自动进行版面分析、表格识别，实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息快速录入工具。对印刷体汉字的识别率达到98％以上，即使对印刷质量较差的文字其识别率也达到95％以上。可识别宋体、黑体、楷体、仿宋体等多种字体的简、繁体，并且可以对多种字体、不同字号混合排版进行识别，对手写体汉字的识别率达到70％以上。特别是我国的汉字ocr技术经过十几年的努力，克服了起步晚、汉字字符集异常庞大等困难，单字的识别速度(指在单位时间内所完成的从特征提取到识别结果输出的字数)可以达到70字／秒以上。由于印刷体ocr汉字识别技术已经比较成熟，所以ocr产品被广泛地应用在新闻、印刷、出版、图书馆、办公自动化等各个行业。

专业型ocr产品多是面向特定的行业，即适用于每天需处理大量表格信息录入的部门，如邮政、税务、海关、统计等等。这种面向特定行业的专业型ocr系统，格式较为固定，识别的字符集相对较小，经常与专用的输入设备结合使用，因此具有速度快、效率高等特点，比如邮件自动分拣系统等。

手写文稿的识别直到1996、1997年才开始有产品问世，而且是作为印刷文稿识别产品的一项附加功能提供的。由于人写字的习惯千差万别，实现自由手写体识别相当困难，所以手写体ocr技术的使用领域是联机手写体识别，即人一边写，计算机一边识别，是一种实时识别方式。

二、ocr的基本原理

简单地说，ocr的基本原理就是通过扫描仪将一份文稿的图像输入给计算机，然后由计算机取出每个文字的图像，并将其转换成汉字的编码。其具体工作过程是，扫描仪将汉字文稿通过电荷耦合器件ccd将文稿的光信号转换为电信号，经过模拟／数字转换器转化为数字信号传输给计算机。计算机接受的是文稿的数字图像，其图像上的汉字可能是印刷汉字，也可能是手写汉字，然后对这些图像中的汉字进行识别。对于印刷体字符，首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件，再通过识别软件将图像中的文字转换成文本格式，以便文字处理软件的进一步加工。其中文字识别是ocr的重要技术。

1．ocr识别的两种方式

与其它信息数据一样，在计算机中所有扫描仪捕捉到的图文信息都是用0、1这两个数字来记录和进行识别的，所有信息都只是以0、1保存的一串串点或样本点。ocr识别程序识别页面上的字符信息，主要通过单元模式匹配法和特征提取法两种方式进行字符识别。

单元模式匹配识别法(pattern matching)是将每一个字符与保存有标准字体和字号位图的文件进行不严格的比较。如果应用程序中有一个已保存字符的大数据库，则应用程序会选取合适的字符进行正确的匹配。软件必须使用一些处理技术，找出最相似的匹配，通常是不断试验同一个字符的不同版本来比较。有些软件可以扫描一页文本，并鉴别出定义新字体的每一个字符。有些软件则使用自己的识别技术，尽其所能鉴别页面上的字符，然后将不可识别的字符进行人工选择或直接录入。

特征提取识别法(feature extraction)是将每个字符分解为很多个不同的字符特征，包括斜线、水平线和曲线等。然后，又将这些特征与理解(识别)的字符进行匹配。举个简单的例子，应用程序识别到两条水平横线，它就会“认为”该字符可能是“二”。特征提取法的优点是可以识别多种字体，例如中文书法体就是采用特征提取法实现字符识别的。

多数ocr应用软件都加入了语法智能检查功能，这种功能进一步提高了识别率。它主要通过上下文检查法实现拼写和语法的纠正，在文字识别时，ocr应用程序会做多次的上下文衔接性检查，根据程序中已经存在的词组、固定的用词顺序，对应的检查字符串的用词字。比较高级的应用软件会自动用它“认为”正确的词语替换错误词语，纠正语句意思。

2．文字识别的几个步骤

文字识别包括以下几个步骤：图文输入、预处理、单字识别和后处理等。

（1）图文输入

是指通过输入设备将文档输入到计算机中，也就是实现原稿的数字化。现在用得比较普遍的设备是扫描仪。文档图像的扫描质量是ocr软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数，是保证文字清楚、特征不丢失的关键。此外，文档尽可能地放置端正，以保证预处理检测的倾斜角小，在进行倾斜校正后，文字图像的变形就小。这些简单的操作，会使系统的识别正确率有所提高。反之，由于扫描设置不当，文字的断笔过多可能会分检出半个文字的图像。文字断笔和笔画粘连会造成有些特征丢失，在将其特征与特征库比较时，会使其特征距离加大，识别错误率上升。

（2）预处理

扫描一幅简单的印刷文档的图像，将每一个文字图像分检出来交给识别模块识别，这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作，包括图像净化处理，去掉原始图像中的显见噪声(干扰)。主要任务是测量文档放置的倾斜角，对文档进行版面分析，对选出的文字域进行排版确认，对横、竖排版的文字行进行切分，每一行的文字图像的分离，标点符号的判别等。这一阶段的工作非常重要，处理的效果直接影响到文字识别的准确率。

版面分析是对文本图像的总体分析，是将文档中的所有文字块分检出来，区分出文本段落及排版顺序，以及图像、表格的区域。将各文字块的域界(域在图像中的始点、终点坐标)，域内的属性(横、竖排版方式)以及各文字块的连接关系作为一种数据结构，提供给识别模块自动识别。对于文本区域直接进行识别处理，对于表格区域进行专用的表格分析及识别处理，对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行，再从图像行中分离出单个字符的过程。

（3）单字识别

单字识别是体现ocr文字识别的核心技术。从扫描文本中分检出的文字图像，由计算机将其图形、图像转变成文字的标准代码，是让计算机“认字”的关键，也就是所谓的识别技术。就像人脑认识文字是因为在人脑中已经保存了文字的各种特征，如文字的结构、文字的笔画等。要想让计算机来识别文字，也需要先将文字的特征等信息储存到计算机里，但要储存什么样的信息及怎样来获取这些信息是一个很复杂的过程，而且要达到非常高的识别率才能符合要求。通常采用的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析。

中国汉字常用的就有几千，识别技术就是特征比较技术，通过和识别特征库的比较，找到特征最相似的字，提取该文字的标准代码，即为识别结果。比较是人们认识事物的一种基本方法，汉字识别也是通过比较找出汉字之间的相同、相似、相异，把握其量和质的关系，以及时间与空间的关系等。对于大字符集的汉字一般采用多级分类，多特征、全方位动态匹配求相似集，以保证分类率高、适应性强、稳定性好；细分类重点在于对相似集求异匹配、加权处理、结构判别，定量、定性分析，以及前后联接词的关系，最后进行判别。汉字识别实质上是比较科学或认知科学在人工智能方面的应用，其关键技术是识别特征库。计算机有了这样的一个特征库，才能完成认字的功能。

在图像文档的版面中，除了有文字、图片，有时还会有表格存在，为了使识别后的表格数字化，需要在版面分析过程中，对表格域进行特殊的处理，它包括对表格线的结构信息的提取，对表格内文字域的分检，完成对表格线和对文字域的识别，并根据表格线的数字化生成不同的文件格式。由于文档中的表格随意性大，格式多样，有封闭式的，也有开放式的，特别是表格中的斜线，给表格分析造成一定的困难。

（4）后处理

后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配，即将单字识别的结果进行分词，与词库中的词组进行比较，以提高系统的识别率，减少误识率。

汉字字符识别是文字识别领域最为困难的问题，它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科，是一门综合性技术。近几年来，印刷汉字识别系统的单字识别正确率已经超过95％，为了进一步提高系统的总体识别率，扫描图像、图像的预处理以及识别后处理等方面的技术也都得到了深入的研究，并取得了长足的进展，有效地提高了印刷汉字识别系统的总体性能。清华大学在此方面的研究成果突出，已经成为世界上的最具权威的机构之一。目前，清华紫光的全系列扫描仪中都配装了清华ocr千禧版软件，它在识别率、表格识别甚至规范手写体的识别方面，均达到了较高水平。

三、ocr文字识别技巧

在最近几年中，ocr识别技术随着扫描仪的普及得到了飞速的发展，扫描、识别软件的性能不断强大并向智能化不断升级发展。但是要想快速地获取正确的扫描结果，得到高效率的文字录入，必须认真学习有关知识，结合实践经验，摸索出自己的全套解决方案。有时我们在作文字识别工作时识别率非常低，根本达不到软件所说的95％以上，请先不要责怪硬件或软件，其实这是没有掌握好扫描及ocr识别技巧的原因。

下面是文字识别操作中经常用到了一些方法和技巧。

1．分辨率的设置是文字识别的重要前提。一般来讲，扫描仪提供较多的图像信息，识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确率就越高。选择300dpi或400dpi分辨率，适合大部分文档扫描。注意文字原稿的扫描识别，设置扫描分辨率时千万不要超过扫描仪的光学分辨率，不然会得不偿失。下面是部分典型设置，仅供参考。
(1)1、2、3号字的文章段，推荐使用200dpi。
(2)4、小4、5号字的文章段，推荐使用300dpl
(3)小5、6号字的文章段，推荐使用400dpl
(4)7、8号字的文章段，推荐使用600dpi。

2. 扫描时适当地调整好亮度和对比度值，使扫描文件黑白分明。这对识别率的影响最为关键，扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。进行识别前，先看看扫描得到的图像中文字质量如何，如果图像存在黑点或黑斑时或文字线条很粗很黑，分不清笔画时，说明亮度值太小了，应该增加亮度值在试试；如果文字线条凹凸不平，有断线甚至图像中汉字轮廓严重残缺时，说明亮度值太大了，应减小亮度后再试试。

3．选好扫描软件。选一款好的适合自己的ocr软件是作好文字识别工作的基础，一般不要使用扫描仪自带的oem软件，oem的ocr软件的功能少、效果差，有的甚至没有中文识别，经过比较，我认为清华紫光ocr2003专业版和尚书ocr6.0文本自动识别输入系统的识别能力与使用功能更突出一些。再选一个图像软件，ocr软件不是有扫描接口吗？为什么还找图像软件？第一，ocr软件不能识别所有的扫描仪；第二，也是最关键的，利用图像软件的扫描接口扫描出来的图像便于处理；一般选用photoshop。

4．如果要进行的文本是带有格式的，如粗体、斜体、首行缩进等，部分ocr软件识别不出来，会丢失格式或出现乱码。如果必须扫描带有格式的文本，事先要确保使用的识别软件是否支持文字格式的扫描。也可以关闭样式识别系统，使软件集中注意力查找正确的字符，不再顾及字体和字体格式。

什么是pdf?

什么是 adobe pdf ?
便携文档格式 (pdf) 由 adobe 发明，已成为全世界各种标准组织用来进行更加安全可靠的电子文档分发和交换的出版规范。adobe? pdf 已经在各企业、政府机构和教育工作者中广为使用，以期简化文档交换、提高生产率、省却纸张流程。如今，无论是向美国食品和药物管理局 (fda) 以电子形式提交药物报批材料，还是以电子形式在美国联邦法院立案，都以 adobe pdf 作为标准格式。

更加安全可靠的电子文档分发和交换
便携文档格式 (pdf) 由 adobe 发明，已成为全世界各种标准组织用来进行更加安全可靠的电子文档分发和交换的出版规范。adobe? pdf 已经在各企业、政府机构和教育工作者中广为使用，以期简化文档交换、提高生产率、省却纸张流程。如今，无论是向美国食品和药物管理局 (fda) 以电子形式提交药物报批材料，还是以电子形式在美国联邦法院立案，都以 adobe pdf 作为标准格式。

保留原始文档的外观和完整性
adobe pdf 文件的外观同原始文档无异，保留了原始文件的字体、图像、图形和布局 ― 无论创建它时使用的是何种应用程序或平台。

不问何人，自由共享
不论是谁，不论采用何种系统，都可以使用免费的 adobe reader? 软件打开 adobe pdf 文档，丝毫不受操作系统、原始应用程序或字体的限制。

方便易用
adobe pdf 文件紧凑，易于交换。创建 pdf 文件就像在 microsoft word、excel 和 powerpoint 等许多应用程序中点击一个按钮那么简单。

文档交换更安全
有了 adobe acrobat 7.0 或 adobe livecycle 软件，您可以对 pdf 文件进行密码保护，以防其他人在未经授权的情况下查看和更改文件，还可让经授权的审阅者使用直观的批注和编辑工具。

可自由搜索
adobe pdf 文件具有全文搜索功能，可对文档中的字词、书签和数据域进行定位。

具备辅助工具
使用 adobe 软件产品能够创建、管理和发送具备辅助工具的、视觉丰富的 adobe pdf 内容，无论何人、何时、何地都能访问。

adobe 的pdf将作为“数字化大师”在信息传送方面取代postscript的地位，下面讲的就是为什么它会取代postscript的原因。

adobe系统的acrobat或pdf文件将逐渐成为每个人的专门辞典的一部分，我非常高兴能借此机会向大家简单地介绍一下它们是怎么工作的，以及我们在将来怎样应用它。pdf文件的应用范围很广，几乎在印刷生产过程的每一阶段都有涉及，并且将来它本身也会成为一种出版媒介。

pdf文件是建立在postscript的良好基础上的，postscript在出版领域的普遍性保证了向pdf的转换的快捷性。今天生产的印刷出版物几乎都是由postscript的输出设备生产的。这就意味着已经安装好的基础生产设备和软件对创建一个pdf的条件是充分的――甚至可以说是完美的。

acrobat程序是由三个不同的应用软件组成的，外加一个可自由分类阅读器。它们是acrobat distiller， acrobat exchange, acrobat catalog，下面就让我们来看看它们中的每一个是怎样进行工作的。

acrobat distiller
acrobat distiller是创建pdf文件的执行软件。在启动distiller 后，用户可以看到一个类似于rip软件的窗口。adobe的 cpsi（postscript解释器）是它的基础，虽然它不能栅格化，却能创建pdf文件。

distiller这一阶段起的作用非常重要，因为每个postscript输出程序工作时，都有各自的特点。通过distiller来运行postscript文件,你可以“预览”―― distiller可以将之转换成postscript文件的标准形式，使postscript文件以更可信，更稳定的形式输出。经pdf格式化的postscript文件的输出与原始的postscript文件形式的输出相比，其稳定性和可靠性更好。

随着文件数据传输的可信度的增加，人们想到可以一次运行一组数据文件，并且在第一次读取时就作为最终输出的格式，而不是象postscript文件那样为了运行快速而采用不同格式或不同精度的文件格式。而且，用户可以保证他们通过输出终端发送给你的文件与他们自己的办公室打印机的输出效果一样。并且，不符之处在我们屏幕上接收到时可以返回它原来的地方。

acrobat exchange
acrobat exchange是在pdf中起的作用是进行少量的编辑，联接和最后的格式化工作，同时它还可以为第三者的定制格式提供一个良好的插入框架，这是许多公司正在引入和开发的功能。exchange应用于你已经打开的并经“蒸馏器（distiller）”蒸馏的pdf文件，并且可以使它具有比打印文档更多的信息。exchange可以定义一篇文章或文件的阅读路径，允许用户仅通过敲击鼠标，就可以使窗口沿着文件中文本的顺序移动。

在exchange中，还可以提供超文本链接链到文本的其他部分上，或链接到其他pdf文件上，甚或可以链接到某个网站上,而且还可以在其中加入声音和quick time电影。换句话说，通过将pdf的文件内容作适当的链接，如和其他的网页或局域网中的pdf文件进行链接,就可以通过pdf格式建立一个网络路径。它甚至能通过一些网页服务器中的“byte服务”功能实现在pdf格式中进行“浏览”操作。“byte服务”是一种工具，这时服务器不需要在阅读文件时将整个文件完全发送而只需要发送5kb的内容，大大提高了浏览速度。
经“byte服务”操作后的pdf文件页面在阅读窗口中显示速度很快（至少应安装有acrobat reader软件的前提下），它比在阅读之前经过漫长的等待整个文件的下载，然后再阅读的工作方式要强得多。链接的多媒体文件如电影和音乐就是一个具体的例子，多媒体文件的内容可能还要改动才能印刷。这时，pdf文档链接的结果使得acrobat能对多媒体文件进行再度创作或编辑，并以一种新的方式重新使用现存的印刷材料。

acrobat catalog
acrobat catalog可以扩大索引和查寻能力。它通过pdf中的文本索引，参考和目录文本中包含的信息来进行解析。这不仅适用于单个的pdf文件而且还适合于整个目录或光盘中所有的pdf文件。这项强大的功能使acrobat通过verity公司的合法授权查寻插件而具有优异的查寻能力。catalog非常敏锐，一旦在pdf文件的目录上操作，再搜索这些文件时会变得非常快速。这与exchange的“查找”功能相比，在速度（要快几百倍）和路径上都不一样。verity插件可以在一个单个的目录中索引几百个pdf文件，而exchange的“查找”功能却限制在以打开和激活的pdf文件范围内。catalog功能同样适用于网络和光盘出版。

可预检的postscript文件格式
在过去，postscript文件与其它一些软件生成的eps格式文件进行组合时，会产生一些错误而不得不重新制作，可能因为某些原因文件组里一个有用的文件还没有加进去，不得不要求将这个文件重新修改后再发送给用户。这时通常希望原始的pdf文件还存在以便进行必要的修改。

这些和其他一些发生在数字印前中事情一样令人头痛，这主要是长期以来人们建立文件方式、组版方式和发送文件方式的多样性所致。预检工具可以有效地清除这些问题中的一部分，但是并没有完全灭绝这些问题。而acrobat（pdf）可以成为理想的预检工具。如果在postscript文件创建时缺少了某个重要因素，就会向用户发出警告。将pdf文件作为预检使用时，可能为用户创建一个供检测的文件并且将之发送到打样车间或印刷商手中。全比例的pdf作为一种标准传递信息的格式使印前利润的提高成为现实。很容易想象，通过电子文件与你的用户传送作业，不再有丢失的eps文件的麻烦事出现，不再有postscript错误等现象出现，使工作流程顺畅了许多。

远程打样打样和编辑
目前大量的通讯数字流作业传送所采用的技术还是不完善的。传真技术只有160dpi的黑白分辨率，这使得要想得到某个图像好坏的真实效果非常困难，要想区分小的细节和字体就更加困难了。

但是有了pdf，就可以用e-mail发送这些文件（文件可以作得足够小），并且附带解释。acrobat exchange具有应用post-it-type注释的功能。这些都可以作为pdf页面的一部分来描述必需要作的修改。而且，用这种pdf文件的副本还可以得到一个局部的，高分辨率的，能够用丰富的颜色印刷的副本（彩色是720 dpi，黑白是160 dpi，这由你自己定）。pdf作为预检使用时建立的文件可以作为一种高分辨率、可编辑的、彩色postscript的传真文件。接收端的打印机越好，最终的产品质量也就越高。

那pdf到底是什么？一个印前工具，一个网络工具，还是一个光盘只读存储工具？pdf是这些功能的集合。必须在创建pdf文件时考虑到它的用途，因为它很灵活而且可控，因此如果总是用缺省值的预设选项功能未必能得到最佳的使用效果。例如，如果创建一个准备用于胶印的pdf文件，你肯定想保存一个高分辨率的pdf文件（也许在distiller上用一个无损压缩选项功能）。然而，如果你想在英特网上通过网络“浏览器”进行通讯，文件的容量大小就显得尤为重要，如用jpeg格式压缩最终的文件只能显示“浏览器”的分辩率的图像。

在印前环境中，也可能使用一个opi工作流程，因为opi文件在整个pdf过程中都保留有他们的“特性”。而且，值得注意的是，adobe 已将pdf与postscript3牢牢地结合在一起了。postscript的新版本能查找pdf，这意味着从顾客那里接收的pdf文件会变得越来越小，而且更加有利可图。完全可以这样说，在不久的将来你会开始向你的顾客要求提供pdf文件。

是什么使pdf比其他电子出版方式好那么多呢？pdf有一个独特的功能是可以在任何一台打印机和计算机平台上获得相同的视觉效果。它是通过将所有的postscript字体，页面描述和图像直接嵌入文件里来实现此项功能的。当你看到从喷墨打印机里出来的印品（仅装有很少的字体）与macintosh上的文件显示的效果一样时，你一定会感到非常的惊讶。

随着越来越多用户想使用英特网作为出版媒介，这种跨平台的能力会有更大范围的应用。通过网络或联合的内部网络出版的英特网文件（html）让最后的输出形式由用户的阅览设置来定。大多数用户都不改变他们预设的阅览设置，此只需要用times romon或其他相似的字体形式来浏览，这样的话当我们想重现作者原来的字体，而html又没有提供能力时出版商可对文件作pdf格式化，这样一来，所浏览的字体与原文档是一模一样的了。

谈到大量出版这个问题，喷墨打印的进步给人的最大启发是：pdf可作为一种出版媒介。pdf可以在家里的输出一份几乎与原稿一样的作品，而价格仅几便士一页的能力。这就是pdf真正吸引人的地方。acrobat事实上正是将一种低标准的postscript解释运行到喷墨打印机上。然而许多喷墨机没有装postscript，但acrobat
reader和exchange有能力将pdf格式输出到这些设备上，使设备具备postscript功能，并且使设备以最高分辨率对pdf文档进行输出。这也意味着办公室的打印输出技术发展的越好，打印得越精细，pdf的出版物也会越精细。最近桌面彩色打印机的流行为pdf出版带来了更多的读者，而且传统印刷的质量和喷墨印刷质量的距离正在逐渐缩小。

总结
pdf文件格式真正的用处是那么的多，以至于无法一一道来。因为pdf作为第三代postscript的模式得到adobe公司的有力支持，不久acrobat将会设置在每个人的系统中，pdf格式文档也会成为通用文档。

关于pdf文件

一般来说，pdf是不太好修改的，它的特点就是安全性强。
如果一定要修改，那么：
1.有些pdf文件可以用acrobat5或更高版本做局部修改
2.可以用一些工具软件，例如pdf converter等来转换成doc文档修改，但此类软件大多为收费软件，且对中文、表格、图片和版面格式等支持很差，还原后大部分文档面目全非。
3.用acrobat5转换pdf文档为rtf格式，再用word载入rtf，同样表格、图片和版面格式异变。
4.终极方法：如果你的pdf文档页数极少，例如什么什么申请表格之类，可以用photoshop7修改，pdf格式其实本身也是一种变相的图片格式（所以很难还原修改），故可以用photoshop7以上作为图片修改，but要改的效果与原先相同，你会发现文件通常会由原先的几十k变为几十m，上百兆都稀松平常的很。这是因为为了达到pdf的显示效果，你不得不把图片的分辨率调高至2000dpi以上。

什么是ocr文件啊?可以用word打开吗?

汉字识别ocr（"光学字符识别"的英文编写）是为了使汉字信息高速输入计算机，以解决低速的信息输入与高速信息处理之间的矛盾，从而提高整个计算机系统的效率。这种根据汉字人工编码录入汉字文本的方法，从根本上改变了人们对计算机汉字人工编码录入的概念。使人们从繁重的键盘录入汉字的劳动中解脱出来。只要用扫描仪将整页文本图像输入到计算机，就能通过ocr软件自动产生汉字文本文件，这与人手工键入的汉字效果是一样的，但速度比手工快几十倍。所以ocr产品的推广意义是深远的。

提高ocr识别率

购买了扫描仪，你一定会发现，附赠的软件中有中英文ocr识别软件，当然一般都是基础版。很多人认为此类ocr的识别率不是很高，甚至怀疑只有那些正版的数千元的ocr软件其识别率才很高。其实，你只要注意使用技巧，此类ocr的识别率完全可达实用化水平。

1、处理原稿扫描图像，使之清晰可“辨”。在其它因素都满足的前提下，对一般的印刷稿、打印稿（包括清晰的针打稿）等质量较好的文稿进行识别，其识别率一般可达到98％以上。而对报纸、复印件等不太清晰的文稿进行识别，无论哪种ocr都难以达到较高的识别率。对那些原稿不太清晰的，要注意识别前对图像加以处理，除去其上的污迹。并注意将偏斜的版面“改斜归正”，通常ocr软件均有此功能，且一般都设有自动纠偏和手动纠偏。

2、分辨率应选择适宜。一般选择300dpi较合适，分辨率选小了会使识别率降低，选得太大了并不能有效提高识别率，还会大幅度加长文件长度，浪费处理时间。有的扫描软件设备上有一项“ocr扫描”，干脆将分辨率锁定为300dpi，这是很有道理的。

3、调整好亮度值和对比度值。这条非常关键，对识别率的影响很大。亮度值的调整是在识别前，先看看扫描得到的图像中文字质量如何，如果文字线条凹凸不平，甚至有断线，说明亮度值太大了，应减小亮度值；当文字线条很黑很粗，甚至挤成了黑疙瘩，分不清笔划时，则说明亮度值太小了，应增加亮度值；对比度的调节要视原稿确定，笔者常根据预扫时图像清晰度确定。

4、利用ocr的自学习功能。有时ocr对某些字总是难以识别，比如ocr开始对“的”和“二”等字总是搞错，这时可以利用ocr软件的自学习功能，“引导”它正确识别一次（有些不同的字体各需一次），它以后就对这些字“熟识”了。具体操作极易，上机看一下菜单即可明白。另外，若原稿全是英文或其中中文很少，最好用附赠的英文ocr软件。还有，现在已有一些很好的文字校对软件，其中一般都设置了ocr校对，利用这些软件先行处理一下所得文本文件，则可大大减轻人工校对负担。
参考资料： http://www.cybersky.com.cn/skill/ocr.htm

上一页：PDF转Word使用哪款浏览器最方便？

下一页：word转pdf缺少目录-关于用C#生成PDF