在网上的许多资料都是以caj、pdf等文件格式提供的,其中的文本不能被直接编辑。网上提供了许多处理这种情况的软件,但是它们不是效率低,就是只能提取其中部分文本。本文所述利用微软提供的ocr识别技术从caj、pdf等文件中提取全部文本的方法,简便快捷,效率很高。
从不同格式的文件中提取文本前需要做好以下准备工作,安装cajviewer5.5浏览器软件和acrobat 5 专业版浏览器软件安装office2003,并完全安装of?鄄fice工具microsoft office document imaging,然后在打印机里面会增加microsoft office document image writer打印机。 microsoft office document image可以非常准确的全文件识别转化中文、英文、表格。
一、caj文件的识别
(一)首先,从网上下载caj格式的资料文件保存到本地硬盘上。
(二)然后,启动cajviewer浏览器程序,并在该程序中打开刚才保存的caj格式的文件。浏览文件到最后一页后,不要关闭caj浏览器程序。
(三)在caj浏览器程序窗口中,选择“文件”→“打印”,并选择打印机为microsoft office document image writer打印机,勾选打印到文件选项和确定打印页数。
(四)保存打印文件(*.prn)到适当位置。等待打印完成后,microsoft office document image 自动打开刚才保存的打印文件。
(五)在microsoft office document image窗口中,选择“页面”菜单中的“选择所有页面”菜单项,然后选择“工具”菜单中的“使用ocr识别文本”提取文本。
(六)选择“工具”下的 “将文本发送到word”,最后将把整个caj文件识别输出到word文件中。
二、pdf文件的识别
(一)以文本形式保存的pdf文件,用acrobat 5 专业版,识别整个文件。直接打开从网上下载的pdf格式文件另存为rtf文件,或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到word中即可。
(二)以图片形式保存的pdf文件,将pdf文件打印到microsoft office document image writer打印机,选择打印形成的文件的保存位置,然后会自动形成一个mdi文件,并且自动用microsoft office document image打开此文件,然后在microsoft office document im?鄄age中选择“工具”菜单中的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个pdf文件识别输出到word文件中。
(三)加密的pdf文件先下载解密软件,解密后在参照上述步骤1),2) 进行。
(四)繁体pdf文件用上述步骤2)的方法识别到word后,用word中的“工具”→“语言”→“中文繁简转换”
三、超星文件的识别
(一)全文件识别打印到microsoft office document image writer打印机,然后按上述pdf文件的识别步骤中第二点操作,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到word中,再合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。在打印选项中,要将页面比例设成真实大小,而不是整宽。注意识别速度比其他格式要慢很多,请保持耐心。一般一本200多页的书,识别需要几分钟的时间。
(二)超星文件识别相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后再用上述识别pdf文件的方法转成word。
四、后记
经过试验,发现microsoft office document image 存在一些不稳定的问题,如在用caj打印到microsoft office document image writer时,发现用caj5.5版本比较快,而caj5.0有时出现假死机。页面显示大时,转化的识别率较高。如果页数多的文件,包括超星,可以分多次转化。
由于虚拟打印到microsoft office document image writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60m,因此会严重影响机器的运行速度、c盘和内存空间。建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在任务栏中会出现打印机图标,可以双击,看到打印任务的进度,避免误以为死机。转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则c盘很快会被用光。
用这个版本的adobe acrobat 6.0 professional.安装后在word工具栏上就会出现三个小图标.点第一个,就可以直接由word转成pdf
pdf转成word文件
日期
还在为只读的pdf文档发愁吗?还在垂涎pdf文档中精美图片而不可得吗?给你介绍一款scansoft同微软共同研发的软件 scansoft pdf converter for microsoft插件。该插件可以帮助我们将pdf文档转换为word文档,并且完全保留原来的版式。
软件名称:scansoft pdf converter v1.0
软件大小:16.4mb
软件类型:共享软件
应用平台:windows 98/nt/2000/xp/2003
支持word版本:ms word 97/2000/2002/2003
下载地址
http://wcarchive.cdrom.com/pub/scansoft/t&b-pdfconverter-r07-us-cnet.exe
下载pdf converter后,解压,执行autorun.exe,直接进行安装,安装完成后不须任何设置,它会自动整合到word中。当我们在 word中点击“打开”菜单时,在“打开”对话框的“文件类型”下拉菜单中可以看到“pdf”选项(图1),这就意味着我们可以用word直接打开pdf 文档了!
adobe acrobat 7.0中已经带有
pdf转word文档的功能,而且对保持原格式支持良好。采用该软件,打开一份pdf文件,然后“另存为”word文档即可。在 baidu中输入“adobe acrobat 7.0注册下载”搜索即可找到破解版的adobe acrobat 7.0下载。
另外,可以用scansoft pdf converter效果也不错。solid converter pdf也可以。
这三个软件我都实际用过,对中文支持好些的还是adobe acrobat 7.0。但对格式支持好点的是scansoft pdf converter。
这几个软件都可以在baidu里搜索到注册版,你都可以安装试用,对不同文件转换的效果略有不同,根据你的pdf文件中图片多少选用最合适的软件即可。
pdf grabber
用于导出pdf文件的工具,可以将pdf文件格式转换成excel、rtf或者word格式. pdfgrabber允许在其他应用程序如word,excel或者access中编辑和进一步处理pdf内容而不用安装acrobat. pdfgrabber显著的特点是其有效的输出模式管理和自动检测任何数目的输入目录.
下载地址
http://soft.yeap.cn/down/27012.htm
pdf转换excel的操作问题
http://www.dwway.com/vbbs/showthread.php?t=8484
百度一下:pdf 转换excel
http://www.baidu.com/s?wd=pdf+%d7%aa%bb%bbexcel&cl=3
www.skycn.com/soft/16023.html
pdf文本转换工具(pdf to text) v2.0
可以将pdf文件直接转换为文本文件,非常简单好用,它对中文pdf文档的处理能力超过adobe的acrobat,ocr版已经支持embed font的抽取,对于图像pdf也能抽取其中的文本。
1.完全支持pdf1.4协议(acrobat 5.0支持)2.支持日文(shift-jis、euc等编码)文本的抽取3.支持big5文本的抽取4.完全基于unicode内核,支持字符集更多更广5.任何工具软件生成的pdf文档均可解析,对pdf的内部错误数据流可以自动纠正。6.支持truetype、type0、type1等字体编码的处理7.标准的windows界面,操作更为便捷8.生成的txt文档可保留原版面的格式布局9.支持批量处理10.ocr插件支持ocr中文识别,可抽取任何pdf中的中文字符11.可直接解析指定页的pdf数据,与页面顺序无关。12.界面友好,在转换时既支持单个文件的转换,也支持批量文件同时转换,可以设置转换页的范围,可以只转任何一页,也可以转换任意范围之内的所有页。
word to pdf
你可以考虑以下三种方式进行转化:
方法一:
利用adobe公司的adobe acrobat professional进行转化。注意,一定是professional版本的,reader版本没有这个功能。
首先安装adobe acrobat professional(目前最高版本为7.0),系统会自动产生一个虚拟打印机pdfmaker,这下明白了吗?你可以打开要转化的文档,用钢产生的虚拟打印机进行打印就可以了。不过,对于word、excel、powerpoint等来说,最好还是直接转化。仔细观察你的word程序,是不是发现多了一个pdfmaker工具栏呢?电力面的第一项,就可以了。
安装了adobe acrobat professional后最大的好处是,利用adobe acrobat professional可以对pdf各式的文档进行编辑,如果你已经安装了该软件,我想你很快会使用的。
而且,adobe acrobat professional还可以将你电脑上的图片转化为pdf文档,在你需要的时候,在用adobe acrobat professional将pdf文档另存为图片。
方法二:
安装pdffactory pro,同样也会产生一个虚拟打印机,这样,你就可以把你所能打印的一切材料都转化为pdf格式。
方法三:
利用macromedia flashpaper进行转化。
在flashpaper安装之后,会自动在在word等软件中会添加一个名为“flashpaper”的菜单和一个有三个按钮的工具栏(与 adobe acrobat professional类似),从左到右依次为:将当前文档转换成flash动画;把文档转换成pdf文档;转换成pdf文件并用email发送。利用该工具栏,可以轻松的把word文档转换成swf或pdf文件。
在其他程序中,如记事本中打开一个文件,单击“文件→打印”,打印机选择“macromedia flashpaper”,单击“首选项”可改变其页面属性。单击“确定”,会自动启动flashpaper进行打印,并把打印结果显示出来。
利用“save as macromedia flash”和“save as pdf”两个按钮,即可把文档保存为swf动画或pdf电子书。运行生成的swf文件,利用上方的工具条可以控制swf文件的显示。