word另存pdf错误-PDFFACTORY 怎么把CAJ转为WORD?

2022-12-27 05:38:25

pdffactory 怎么把caj转为word?

在网上的许多资料都是以caj、pdf等文件格式提供的，其中的文本不能被直接编辑。网上提供了许多处理这种情况的软件，但是它们不是效率低，就是只能提取其中部分文本。本文所述利用微软提供的ocr识别技术从caj、pdf等文件中提取全部文本的方法，简便快捷，效率很高。
从不同格式的文件中提取文本前需要做好以下准备工作，安装cajviewer5.5浏览器软件和acrobat 5 专业版浏览器软件安装office2003，并完全安装of?鄄fice工具microsoft office document imaging，然后在打印机里面会增加microsoft office document image writer打印机。 microsoft office document image可以非常准确的全文件识别转化中文、英文、表格。
一、caj文件的识别
（一）首先，从网上下载caj格式的资料文件保存到本地硬盘上。
（二）然后，启动cajviewer浏览器程序，并在该程序中打开刚才保存的caj格式的文件。浏览文件到最后一页后，不要关闭caj浏览器程序。
（三）在caj浏览器程序窗口中，选择“文件”→“打印”，并选择打印机为microsoft office document image writer打印机，勾选打印到文件选项和确定打印页数。
（四）保存打印文件（*.prn）到适当位置。等待打印完成后，microsoft office document image 自动打开刚才保存的打印文件。
（五）在microsoft office document image窗口中，选择“页面”菜单中的“选择所有页面”菜单项，然后选择“工具”菜单中的“使用ocr识别文本”提取文本。
（六）选择“工具”下的 “将文本发送到word”，最后将把整个caj文件识别输出到word文件中。
二、pdf文件的识别
（一）以文本形式保存的pdf文件，用acrobat 5 专业版，识别整个文件。直接打开从网上下载的pdf格式文件另存为rtf文件，或者选择工具栏上的文字选择按钮，然后选择文字区域，然后复制到word中即可。
（二）以图片形式保存的pdf文件，将pdf文件打印到microsoft office document image writer打印机，选择打印形成的文件的保存位置，然后会自动形成一个mdi文件，并且自动用microsoft office document image打开此文件，然后在microsoft office document im?鄄age中选择“工具”菜单中的“使用ocr识别文本”，识别完成后，在选择“工具”下的，“将文本发送到word”，最后将把整个pdf文件识别输出到word文件中。
（三）加密的pdf文件先下载解密软件，解密后在参照上述步骤1),2) 进行。
（四）繁体pdf文件用上述步骤2)的方法识别到word后，用word中的“工具”→“语言”→“中文繁简转换”
三、超星文件的识别
（一）全文件识别打印到microsoft office document image writer打印机，然后按上述pdf文件的识别步骤中第二点操作，要注意的是，超星打印功能有点区别，因为超星是目录和全文分开的，所以打印时，需要分别把目录和正文识别到word中，再合并到一起。打印时要填入打印页码从1到最后一页，不要选择打印全部。在打印选项中，要将页面比例设成真实大小，而不是整宽。注意识别速度比其他格式要慢很多，请保持耐心。一般一本200多页的书，识别需要几分钟的时间。
（二）超星文件识别相对比较麻烦一些，如果还有问题，可以先把超星打印成完整的pdf文件，然后再用上述识别pdf文件的方法转成word。
四、后记
经过试验，发现microsoft office document image 存在一些不稳定的问题，如在用caj打印到microsoft office document image writer时，发现用caj5.5版本比较快，而caj5.0有时出现假死机。页面显示大时，转化的识别率较高。如果页数多的文件，包括超星，可以分多次转化。
由于虚拟打印到microsoft office document image writer 比较慢，并且形成的虚拟文件很大，1本200多页的书大约是60m，因此会严重影响机器的运行速度、c盘和内存空间。建议配置好的机器一次转化不要超过200页，配置差的不要超过100页，同时打印时在任务栏中会出现打印机图标，可以双击，看到打印任务的进度，避免误以为死机。转化完成后请删除c:\windows\temp目录下的虚拟打印文件，否则c盘很快会被用光。

pdf不能够转换到doc的原因

建议你最好用solid pdf converter,我用了感觉真不错.

请看pdf大全:
http://hi.baidu.com/toptpe/blog/item/da1bdb955f46fc4bd1135e49.html

仔细看了你的问题,应该是不可能的事,除非你装了不是最高版本,如果是solid converter pdf总是可以把pdf转化为doc的.我对比起来,感觉在pdf转doc方面,这个软件是最好的.

我用软件把pdf转换成文档后,发现里面的标点符号是代...

用这个版本的adobe acrobat 6.0 professional.安装后在word工具栏上就会出现三个小图标.点第一个,就可以直接由word转成pdf

pdf转成word文件
日期

还在为只读的pdf文档发愁吗?还在垂涎pdf文档中精美图片而不可得吗?给你介绍一款scansoft同微软共同研发的软件 scansoft pdf converter for microsoft插件。该插件可以帮助我们将pdf文档转换为word文档，并且完全保留原来的版式。

软件名称：scansoft pdf converter v1.0
软件大小：16.4mb
软件类型：共享软件
应用平台：windows 98/nt/2000/xp/2003
支持word版本：ms word 97/2000/2002/2003
下载地址 http://wcarchive.cdrom.com/pub/scansoft/t&b-pdfconverter-r07-us-cnet.exe

下载pdf converter后，解压，执行autorun.exe，直接进行安装，安装完成后不须任何设置，它会自动整合到word中。当我们在 word中点击“打开”菜单时，在“打开”对话框的“文件类型”下拉菜单中可以看到“pdf”选项（图1），这就意味着我们可以用word直接打开pdf 文档了!

adobe acrobat 7.0中已经带有pdf转word文档的功能，而且对保持原格式支持良好。采用该软件，打开一份pdf文件，然后“另存为”word文档即可。在 baidu中输入“adobe acrobat 7.0注册下载”搜索即可找到破解版的adobe acrobat 7.0下载。
另外，可以用scansoft pdf converter效果也不错。solid converter pdf也可以。
这三个软件我都实际用过，对中文支持好些的还是adobe acrobat 7.0。但对格式支持好点的是scansoft pdf converter。
这几个软件都可以在baidu里搜索到注册版，你都可以安装试用，对不同文件转换的效果略有不同，根据你的pdf文件中图片多少选用最合适的软件即可。

pdf grabber
用于导出pdf文件的工具，可以将pdf文件格式转换成excel、rtf或者word格式. pdfgrabber允许在其他应用程序如word,excel或者access中编辑和进一步处理pdf内容而不用安装acrobat. pdfgrabber显著的特点是其有效的输出模式管理和自动检测任何数目的输入目录.
下载地址 http://soft.yeap.cn/down/27012.htm

pdf转换excel的操作问题
http://www.dwway.com/vbbs/showthread.php?t=8484

百度一下：pdf 转换excel
http://www.baidu.com/s?wd=pdf+%d7%aa%bb%bbexcel&cl=3

www.skycn.com/soft/16023.html

pdf文本转换工具(pdf to text) v2.0
可以将pdf文件直接转换为文本文件，非常简单好用,它对中文pdf文档的处理能力超过adobe的acrobat,ocr版已经支持embed font的抽取，对于图像pdf也能抽取其中的文本。
1.完全支持pdf1.4协议(acrobat 5.0支持)2.支持日文（shift-jis、euc等编码）文本的抽取3.支持big5文本的抽取4.完全基于unicode内核，支持字符集更多更广5.任何工具软件生成的pdf文档均可解析，对pdf的内部错误数据流可以自动纠正。6.支持truetype、type0、type1等字体编码的处理7.标准的windows界面，操作更为便捷8.生成的txt文档可保留原版面的格式布局9.支持批量处理10.ocr插件支持ocr中文识别，可抽取任何pdf中的中文字符11.可直接解析指定页的pdf数据，与页面顺序无关。12.界面友好，在转换时既支持单个文件的转换，也支持批量文件同时转换，可以设置转换页的范围，可以只转任何一页，也可以转换任意范围之内的所有页。

word to pdf

你可以考虑以下三种方式进行转化：

方法一：
利用adobe公司的adobe acrobat professional进行转化。注意，一定是professional版本的，reader版本没有这个功能。
首先安装adobe acrobat professional（目前最高版本为7.0），系统会自动产生一个虚拟打印机pdfmaker，这下明白了吗？你可以打开要转化的文档，用钢产生的虚拟打印机进行打印就可以了。不过，对于word、excel、powerpoint等来说，最好还是直接转化。仔细观察你的word程序，是不是发现多了一个pdfmaker工具栏呢？电力面的第一项，就可以了。
安装了adobe acrobat professional后最大的好处是，利用adobe acrobat professional可以对pdf各式的文档进行编辑，如果你已经安装了该软件，我想你很快会使用的。
而且，adobe acrobat professional还可以将你电脑上的图片转化为pdf文档，在你需要的时候，在用adobe acrobat professional将pdf文档另存为图片。

方法二：
安装pdffactory pro，同样也会产生一个虚拟打印机，这样，你就可以把你所能打印的一切材料都转化为pdf格式。

方法三：
利用macromedia flashpaper进行转化。
在flashpaper安装之后，会自动在在word等软件中会添加一个名为“flashpaper”的菜单和一个有三个按钮的工具栏（与 adobe acrobat professional类似），从左到右依次为：将当前文档转换成flash动画；把文档转换成pdf文档；转换成pdf文件并用email发送。利用该工具栏，可以轻松的把word文档转换成swf或pdf文件。
在其他程序中，如记事本中打开一个文件，单击“文件→打印”，打印机选择“macromedia flashpaper”，单击“首选项”可改变其页面属性。单击“确定”，会自动启动flashpaper进行打印，并把打印结果显示出来。
利用“save as macromedia flash”和“save as pdf”两个按钮，即可把文档保存为swf动画或pdf电子书。运行生成的swf文件，利用上方的工具条可以控制swf文件的显示。

求救啊在用软件把pdf转化word的时候系统提示虚拟...

虚拟内存设置- -

一，什么是虚拟内存？

windows操作系统用虚拟内存来动态管理运行时的交换文件。
为了提供比实际物理内存还多的内存容量以供使用，windows操作系统
占用了硬盘上的一部分
空间作为虚拟内存。当cpu有要求时，首先会读取内存中的资料。当内存容量
不够用时，windows就会将需要暂时储存的数据写入硬盘。所以，计算机的
内存大小等于实际物理内存容量加上“分页文件”（就是交换文件）的大小。
如果需要的话，“分页文件”会动用硬盘上所有可以使用的空间。如果条
件允许，你应尽可能应用这种功能设置。当然，如果你能自己动手设置的话，
会取得比windows操作系统自动设置更好的效果。

二，计算虚拟内存

在你设置虚拟内存大小之前，你会想到应该怎样进行“实际设置”。有人
推荐应用一个常规公式：物理内存数*2.5，当然这是不对的。应用这样的公式，
对于拥有16mb内存的用户就应该设置40mb；对于拥有128mb内存的用户来说则应
设置320mb。很显然，对于拥有较少内存的用户来说，他需要比拥有内存容量较
大的用户设置更多的虚拟内存。要想看你的机器中内存工作的情况，应先
安装“系统管理器”。打开“控制面版”窗口，点击“添加/删除程序”，选择
“windows安装程序”，从中选择“系统工具”，在“系统监视器”项前打勾，
并安装它。运行“系统监视器”（开始-程序-附件-系统工具-系统监视器），
选择“编辑”，然后选择“添加项目”里的“内存管理程序”，在右边的
窗口里添加“正在使用交换文件”和“交换文件大小”。这时“系统监视器”就会
显示轨迹图示。此外，你也可以通过“编辑”项里的“删除项目”删去不需要的项目。
点击“选项”里的“图表”并设置“更新间隔”，可以根据你打算监
视时间的长短来选择。一定要确认点击“文件”选择“开始记录”，并且保存
记录日志(sysmon.log)到你的硬盘上，以便于以后参考使用。

如果想获得更好的轨迹来参考，那就需要做一些能使你的机器处于“重压”
下的任务，例如玩游戏，或是运行一些大程序。在运行一些极限时的demo或是玩
[虚幻]游戏时，能帮助你确定所需要的“虚拟内存”大小。当然，这种“重压”
测试是在计算机可以承认的情况下进行的，从测试结果表明处理图形的能力
与“交换文件大小”有关。设置完“系统监视器”后，你就可以参考“记录日志”
了。用“记事本”打开“sysmon.log”文件。其中文件的大小是以字节来
表示的，我们就用1048576（1024*1024）来转换。125829120/1048576=120mb。
你应该取计算的最大值，一般与计算值的差距不超过5mb。

三，设置虚拟内存

基于测试结果，现在设置虚拟内存一般有两种不同的方法。一种方法是创建
一个“长期固定” 的转换文件，另一个是创建“半长期” 的转换文件。创建“半长期”
转换文件的好处在于一旦有必要，windows操作系统可以扩大转换文件的大小，
这将避免“内存不足”的错误。在应用完毕后，windows操作系统又会将转换文件
的大小恢复到最初（也是最小）的大小。如果你想创建“长期固定” 的转换文件，
则设置数值应该比计算数值多留30-50mb空间，并将“最大值和最小值” 的标准
设为150mb。特别是在有额外虚拟内存需求时，“长期固定”的转换文件更能
防止意外情况的发生。其实，通常而言，硬盘上有150mb的虚拟
内存应该可以应付额外的内存空间需求了。

一旦确定了要选择的方法，请按以下步骤进行：

1.整理你的硬盘，然后从新启动；

2.右键点击“我的电脑”，选择“属性”项

3.选择“性能”项；

4.选择“虚拟内存”项，在弹出的窗口中选择“用户自己指定虚拟内存设置”
（下面所谓的a或b取决于你选择“长期固定”或“半长期”的转换文件形式）；

a如果选择“长期固定”的转换文件，那么请根据上面说过的方法来设定各数值；

b如果你选择“半长期”的转换文件，就如上述设置（当然具体数值由计算数值来决定）。
其中最大值就是你硬盘上的所有空余空间；

5.从新启动使修改设置生效。

注意：你也可以通过文件“system.ini”来设定虚拟内存的大小。
点击“开始”弹出窗口的“运行”项，键入“system.ini”后敲击回车键。
在[3 8 6 e n h]下用“minpagingfilesize,maxpagingfilesize & pagingdrive=”
来设置放置转换文件的硬盘盘符以及转换文件的最大和最小值。这里的数值是用kb为
单位来计算的，请用mb*1024的方法来转换。

四，进一步完善交换文件

在设置完虚拟内存以后，还可以进一步完善它。交换文件最好放置在硬盘的边缘，
可惜windows操作系统自带的磁盘清理程序并不支持，但你可以用类似
于norton speed disk 这样的磁盘清理工具。我建议你不要把交换文件放到
不同的分区里，因为这样硬盘磁头会不断的移动，从而浪费时间和硬盘的本身。相
反，我建议你要把交换文件放到最常用的分区里，也就是说放到安装了windows操作
系统“c:/”里面去。在设定虚拟内存时，改变硬盘设置就要改变交换文件设置。

五，虚拟缓存――vcache

注意：以下的设置在windows 95操作系统里面得到的效果会比在windows 98里
的效果要好，所以如果你使用windows 98系统，就可以不必设置“最大和最小
缓存文件（min & maxcachefile）”的大小。

点击“开始”弹出窗口里的“运行”项，键入“system.ini”，然后按回车键。
从文件中寻找“[vcache]”项，并在标题下面键入以下信息：

minfilecache=16384

maxfilecache=16384

你可以使用“剪切”（ctrl+l），然后“粘贴”(ctrl+v)完成。其中
“最小和最大缓存文件（min & maxcachefile）”取决于物理内存的大小，如果你有
64mb内存，应该设置虚拟缓存为物理内存的¼大小。如果有128mb的内存，
就应将数值加倍。如果想达到最好的效果，还需要对其中的一些数值进行实验。
现在，请将下面内容加入到“最小和最大缓存文件”设置的下面。

chunksize=512

namecache=2048

directorycache=48

以上设置都意味着什么呢？

1．“min & maxcachefile”设置了系统中最小和最大的磁盘缓存。这种设置
将会直接影响到物理内存的实际应用大小，设置值越高，就会有越少的内存被应
用到转换用途上去。

2．“chunksize”设置会直接影响到工作效果。磁盘缓存是内存里面的一个
独立的模块；它分有很多“块”（chunk），如果块尺寸(chunksize)设置过小就一
定会增加占用的块数。如果块尺寸设置的太大就会浪费很多资源。所以，最好
的取值是不大不小。如果必要，你可以用乘以512（或1024，2048等）的方法改变数值。

3．“namecache”设定了一个windows 系统所能跟踪的文件数上限。

4．“directorycache”设定了一个windows系统所能跟踪的目录数上限

此外，还有另一种方法来优化内存。但在使用之前，你必须在计算机上
安装“windows scripting”程序。你可以在控制面版里选择“添加/删除程序”，然
后选择windows安装程序这一项。

经过以上的设置以后，你的虚拟内存在各方面都会提高很多。
你将会发现你的系统有了明显的变化：比如硬盘驱动器不再频繁存取了等等。
既然完善你的系统虚拟内存设置将会使你获得巨大的收益。
那么，请快加入到虚拟内存的行列中来吧。
参考资料： http://hmmjason.blogchina.com/2880052.html

电脑软件问题

扫描文字，结果以图片格式(.bmp)存入电脑。然后使用orc识别系统进行转换，最终用word进行修改编辑。下面教你如何使用orc:

ocr是英文optical character recognition的缩写，翻译成中文就是通过光学技术对文字进行识别的意思, 是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术，是与扫描仪配套的主要软件，属于非键盘输入范畴，需要图像输入设备主要是扫描仪相配合。现在ocr主要是指文字识别软件，在1996年清华紫光开始搭配中文识别软件之前，市场上的扫描仪和ocr软件一直是分开销售的，专业的ocr软件谠缧┦焙蚵舻帽壬枰腔挂�蟆k孀派枰欠直媛实奶嵘��ocr软件也在不断升级，扫描仪厂商现在已把专业的ocr软件搭配自己生产的扫描仪出售。ocr技术的迅速发展与扫描仪的广泛使用是密不可分的，近两年随着扫描仪逐渐普及和ocr技术的日臻完善，ocr己成为绝大多数扫描仪用户的得力助手。

一、ocr技术的发展历程

自20世纪60年代初期出现第一代ocr产品开始，经过30多年的不断发展改进，包括手写体的各种ocr技术的研究取得了令人瞩目的成果，人们对ocr产品的功能要求也从原来的单纯注重识别率，发展到对整个ocr系统的识别速度、用户界面的友好性、操作的简便性、产品的稳定性、适应性、可靠性和易升级性、售前售后服务质量等各方面提出更高的要求。

ibm公司最早开发了ocr产品，1965年在纽约世界博览会上展出了ibm公司的ocr产品――ibml287。当时的这款产品只能识别印刷体的数字、英文字母及部分符号，并且必须是指定的字体。20世纪60年代末，日立公司和富士通公司也分别研制出各自的ocr产品。全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的，两年后nec公司也推出了同样的系统。到了1974年，信函的自动分拣率达到92％左右，并且广泛地应用在邮政系统中，发挥着较好的作用。1983年日本东芝公司发布了其识别印刷体日文汉字的ocr系统ocrv595，其识别速度为每秒70～100个汉字，识别率为99．5％。其后东芝公司又开始了手写体日文汉字识别的研究工作。

中国在ocr技术方面的研究工作相对起步较晚，在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究，20世纪70年代末开始进行汉字识别的研究。1986年，国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文ocr软件的开发工作。至1989 年，清华大学率先推出了国内第一套中文ocr软件--清华文通th-ocr1.0版，至此中文ocr正式从实验室走向了市场。清华ocr印刷体汉字识别软件其后又推出了th-ocr 92高性能实用简／繁体、多字体、多功能印刷汉字识别系统，使印刷体汉字识别技术又取得重大进展。到1994年推出的th-ocr 94高性能汉英混排印刷文本识别系统，则被专家鉴定为“是国内外首次推出的汉英混排印刷文本识别系统，总体上居国际领先水平”。上个世纪90年代中后期，清华大学电子工程系提出并进行了汉字识别综合研究，使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具有代表性的成果是th-ocr 97综合集成汉字识别系统，它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。几年来，除清华文通th-ocr 外，其它如尚书sh-ocr等各具风格的ocr软件也相继问世，中文ocr市场稳步扩大，用户遍布世界各地。

可以说目前印刷体ocr的识别技术已经达到较高水平。ocr产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号，发展成为可以自动进行版面分析、表格识别，实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息快速录入工具。对印刷体汉字的识别率达到98％以上，即使对印刷质量较差的文字其识别率也达到95％以上。可识别宋体、黑体、楷体、仿宋体等多种字体的简、繁体，并且可以对多种字体、不同字号混合排版进行识别，对手写体汉字的识别率达到70％以上。特别是我国的汉字ocr技术经过十几年的努力，克服了起步晚、汉字字符集异常庞大等困难，单字的识别速度(指在单位时间内所完成的从特征提取到识别结果输出的字数)可以达到70字／秒以上。由于印刷体ocr汉字识别技术已经比较成熟，所以ocr产品被广泛地应用在新闻、印刷、出版、图书馆、办公自动化等各个行业。

专业型ocr产品多是面向特定的行业，即适用于每天需处理大量表格信息录入的部门，如邮政、税务、海关、统计等等。这种面向特定行业的专业型ocr系统，格式较为固定，识别的字符集相对较小，经常与专用的输入设备结合使用，因此具有速度快、效率高等特点，比如邮件自动分拣系统等。

手写文稿的识别直到1996、1997年才开始有产品问世，而且是作为印刷文稿识别产品的一项附加功能提供的。由于人写字的习惯千差万别，实现自由手写体识别相当困难，所以手写体ocr技术的使用领域是联机手写体识别，即人一边写，计算机一边识别，是一种实时识别方式。

二、ocr的基本原理

简单地说，ocr的基本原理就是通过扫描仪将一份文稿的图像输入给计算机，然后由计算机取出每个文字的图像，并将其转换成汉字的编码。其具体工作过程是，扫描仪将汉字文稿通过电荷耦合器件ccd将文稿的光信号转换为电信号，经过模拟／数字转换器转化为数字信号传输给计算机。计算机接受的是文稿的数字图像，其图像上的汉字可能是印刷汉字，也可能是手写汉字，然后对这些图像中的汉字进行识别。对于印刷体字符，首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件，再通过识别软件将图像中的文字转换成文本格式，以便文字处理软件的进一步加工。其中文字识别是ocr的重要技术。

1．ocr识别的两种方式

与其它信息数据一样，在计算机中所有扫描仪捕捉到的图文信息都是用0、1这两个数字来记录和进行识别的，所有信息都只是以0、1保存的一串串点或样本点。ocr识别程序识别页面上的字符信息，主要通过单元模式匹配法和特征提取法两种方式进行字符识别。

单元模式匹配识别法(pattern matching)是将每一个字符与保存有标准字体和字号位图的文件进行不严格的比较。如果应用程序中有一个已保存字符的大数据库，则应用程序会选取合适的字符进行正确的匹配。软件必须使用一些处理技术，找出最相似的匹配，通常是不断试验同一个字符的不同版本来比较。有些软件可以扫描一页文本，并鉴别出定义新字体的每一个字符。有些软件则使用自己的识别技术，尽其所能鉴别页面上的字符，然后将不可识别的字符进行人工选择或直接录入。

特征提取识别法(feature extraction)是将每个字符分解为很多个不同的字符特征，包括斜线、水平线和曲线等。然后，又将这些特征与理解(识别)的字符进行匹配。举个简单的例子，应用程序识别到两条水平横线，它就会“认为”该字符可能是“二”。特征提取法的优点是可以识别多种字体，例如中文书法体就是采用特征提取法实现字符识别的。

多数ocr应用软件都加入了语法智能检查功能，这种功能进一步提高了识别率。它主要通过上下文检查法实现拼写和语法的纠正，在文字识别时，ocr应用程序会做多次的上下文衔接性检查，根据程序中已经存在的词组、固定的用词顺序，对应的检查字符串的用词字。比较高级的应用软件会自动用它“认为”正确的词语替换错误词语，纠正语句意思。

2．文字识别的几个步骤

文字识别包括以下几个步骤：图文输入、预处理、单字识别和后处理等。

（1）图文输入

是指通过输入设备将文档输入到计算机中，也就是实现原稿的数字化。现在用得比较普遍的设备是扫描仪。文档图像的扫描质量是ocr软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数，是保证文字清楚、特征不丢失的关键。此外，文档尽可能地放置端正，以保证预处理检测的倾斜角小，在进行倾斜校正后，文字图像的变形就小。这些简单的操作，会使系统的识别正确率有所提高。反之，由于扫描设置不当，文字的断笔过多可能会分检出半个文字的图像。文字断笔和笔画粘连会造成有些特征丢失，在将其特征与特征库比较时，会使其特征距离加大，识别错误率上升。

（2）预处理

扫描一幅简单的印刷文档的图像，将每一个文字图像分检出来交给识别模块识别，这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作，包括图像净化处理，去掉原始图像中的显见噪声(干扰)。主要任务是测量文档放置的倾斜角，对文档进行版面分析，对选出的文字域进行排版确认，对横、竖排版的文字行进行切分，每一行的文字图像的分离，标点符号的判别等。这一阶段的工作非常重要，处理的效果直接影响到文字识别的准确率。

版面分析是对文本图像的总体分析，是将文档中的所有文字块分检出来，区分出文本段落及排版顺序，以及图像、表格的区域。将各文字块的域界(域在图像中的始点、终点坐标)，域内的属性(横、竖排版方式)以及各文字块的连接关系作为一种数据结构，提供给识别模块自动识别。对于文本区域直接进行识别处理，对于表格区域进行专用的表格分析及识别处理，对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行，再从图像行中分离出单个字符的过程。

（3）单字识别

单字识别是体现ocr文字识别的核心技术。从扫描文本中分检出的文字图像，由计算机将其图形、图像转变成文字的标准代码，是让计算机“认字”的关键，也就是所谓的识别技术。就像人脑认识文字是因为在人脑中已经保存了文字的各种特征，如文字的结构、文字的笔画等。要想让计算机来识别文字，也需要先将文字的特征等信息储存到计算机里，但要储存什么样的信息及怎样来获取这些信息是一个很复杂的过程，而且要达到非常高的识别率才能符合要求。通常采用的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析。

中国汉字常用的就有几千，识别技术就是特征比较技术，通过和识别特征库的比较，找到特征最相似的字，提取该文字的标准代码，即为识别结果。比较是人们认识事物的一种基本方法，汉字识别也是通过比较找出汉字之间的相同、相似、相异，把握其量和质的关系，以及时间与空间的关系等。对于大字符集的汉字一般采用多级分类，多特征、全方位动态匹配求相似集，以保证分类率高、适应性强、稳定性好；细分类重点在于对相似集求异匹配、加权处理、结构判别，定量、定性分析，以及前后联接词的关系，最后进行判别。汉字识别实质上是比较科学或认知科学在人工智能方面的应用，其关键技术是识别特征库。计算机有了这样的一个特征库，才能完成认字的功能。

在图像文档的版面中，除了有文字、图片，有时还会有表格存在，为了使识别后的表格数字化，需要在版面分析过程中，对表格域进行特殊的处理，它包括对表格线的结构信息的提取，对表格内文字域的分检，完成对表格线和对文字域的识别，并根据表格线的数字化生成不同的文件格式。由于文档中的表格随意性大，格式多样，有封闭式的，也有开放式的，特别是表格中的斜线，给表格分析造成一定的困难。

（4）后处理

后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配，即将单字识别的结果进行分词，与词库中的词组进行比较，以提高系统的识别率，减少误识率。

汉字字符识别是文字识别领域最为困难的问题，它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科，是一门综合性技术。近几年来，印刷汉字识别系统的单字识别正确率已经超过95％，为了进一步提高系统的总体识别率，扫描图像、图像的预处理以及识别后处理等方面的技术也都得到了深入的研究，并取得了长足的进展，有效地提高了印刷汉字识别系统的总体性能。清华大学在此方面的研究成果突出，已经成为世界上的最具权威的机构之一。目前，清华紫光的全系列扫描仪中都配装了清华ocr千禧版软件，它在识别率、表格识别甚至规范手写体的识别方面，均达到了较高水平。

三、ocr文字识别技巧

在最近几年中，ocr识别技术随着扫描仪的普及得到了飞速的发展，扫描、识别软件的性能不断强大并向智能化不断升级发展。但是要想快速地获取正确的扫描结果，得到高效率的文字录入，必须认真学习有关知识，结合实践经验，摸索出自己的全套解决方案。有时我们在作文字识别工作时识别率非常低，根本达不到软件所说的95％以上，请先不要责怪硬件或软件，其实这是没有掌握好扫描及ocr识别技巧的原因。

下面是文字识别操作中经常用到了一些方法和技巧。

1．分辨率的设置是文字识别的重要前提。一般来讲，扫描仪提供较多的图像信息，识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确率就越高。选择300dpi或400dpi分辨率，适合大部分文档扫描。注意文字原稿的扫描识别，设置扫描分辨率时千万不要超过扫描仪的光学分辨率，不然会得不偿失。下面是部分典型设置，仅供参考。
(1)1、2、3号字的文章段，推荐使用200dpi。
(2)4、小4、5号字的文章段，推荐使用300dpl
(3)小5、6号字的文章段，推荐使用400dpl
(4)7、8号字的文章段，推荐使用600dpi。

2. 扫描时适当地调整好亮度和对比度值，使扫描文件黑白分明。这对识别率的影响最为关键，扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。进行识别前，先看看扫描得到的图像中文字质量如何，如果图像存在黑点或黑斑时或文字线条很粗很黑，分不清笔画时，说明亮度值太小了，应该增加亮度值在试试；如果文字线条凹凸不平，有断线甚至图像中汉字轮廓严重残缺时，说明亮度值太大了，应减小亮度后再试试。

3．选好扫描软件。选一款好的适合自己的ocr软件是作好文字识别工作的基础，一般不要使用扫描仪自带的oem软件，oem的ocr软件的功能少、效果差，有的甚至没有中文识别，经过比较，我认为清华紫光ocr2003专业版和尚书ocr6.0文本自动识别输入系统的识别能力与使用功能更突出一些。再选一个图像软件，ocr软件不是有扫描接口吗？为什么还找图像软件？第一，ocr软件不能识别所有的扫描仪；第二，也是最关键的，利用图像软件的扫描接口扫描出来的图像便于处理；一般选用photoshop。

4．如果要进行的文本是带有格式的，如粗体、斜体、首行缩进等，部分ocr软件识别不出来，会丢失格式或出现乱码。如果必须扫描带有格式的文本，事先要确保使用的识别软件是否支持文字格式的扫描。也可以关闭样式识别系统，使软件集中注意力查找正确的字符，不再顾及字体和字体格式。

扫描文件一律是图片格式,不能用word编辑文字.
用扫描仪自带的软件进行ocr识别,识别后的文字就可以用word编辑修改了.而且会有识别错误,识别率跟识别软件,及扫描的图片质量有关,
如果文本中同时含有几种不同语言的话,识别错误会更多.对于识别,用专门的ocr软件效果也许会理想一些.

ocr技巧:
http://64.233.167.104/search?q=cache:3-jgra8kr4cj:www.yesky.com/226/1760226.shtml+%e6%89%ab%e6%8f%8f%e4%bb%aa+orc+%e6%96%87%e5%ad%97&hl=zh-cn&gl=cn&ct=clnk&cd=1

专门的ocr识别软件:
尚书ocr:
http://www.saomiaoyi.cn/chanpin/..%5cchanpin%5cwenzishibie2.htm
清华紫光ocr,
微软office 2003 ocr:
www.fixdown.com/wz/article/34/36/2006/56925.htm

参考资料： www.fixdown.com/wz/article/34/36/2006/56925.htm

如果你有扫描仪的话，就需要一款汉王ocr软件，如6800。如果没有扫描仪的话，需要购进一款汉王6800（或更高的级别的）扫描仪，随机赠送ocr软件。
它能够将扫描的文字直接导入到word中进行编辑。

pdf转化word

1. 第一步：先用adobe reader打开想转换的pdf文件，接下来选择“文件→打印”菜单，在打开的“打印”窗口中将“打印机”栏中的“名称”设置为“microsoft office document image writer”，确认后将该pdf文件输出为mdi格式的虚拟打印文件。

第二步：运行microsoft office document imaging，并利用它来打开刚才保存的mdi文件，选择“工具→将文本发送到word”菜单，在弹出的窗口中选中“在输出时保持图片版式不变”，确认后系统会提示“必须在执行此操作前重新运行ocr。这可能需要一些时间”，不管它，确认即可。

2. 情况一：如果pdf文档本身就是用pagemaker或word转换而来的（文字非常清晰锐利，很容易识别），那你就方便了。你可以先用acrobat打开，然后点文件――>另存为――>把他保存成rtf文档，这样将把所有的pdf页保存成rtf文档，在用word打开。注意最好保存成rtf 文档，要不很有可能产生乱码。小技巧：如果你只想识别pdf文件中的其中几页，那你可以现把那几页另存为新的pdf文档，再进行识别。ny1
情况二：如果你所得到的pdf文档是用扫描仪扫进去的图片转换的，那么就麻烦了，不过还是比手输入快多了，所以继续往下看。首先你用 acrobat把pdf文件打开，然后点文件――>另存为――>把他保存成图片格式*.tiff（这是无压缩图片格式，以便识别），然后到网上下载文字识别软件，建议用尚书六号（现在好像出到七号了，很有名，随处都可以下到），安装好后，打开转换好的tiff图片，点击识别，看，文字出来了吧，尚书系列文字识别软件功能十分强大，你可以在里面把文字都编辑好了，再保存成rtf或txt文件，然后粘贴到word里就可以使用了，注意过滤回车符。

上一页：PDF转Word使用哪款浏览器最方便？