应该说,pdf文档的规范性使得浏览者在阅读上方便了许多,但倘若要从里面提取些资料,实在是麻烦的可以。回忆起当初做毕业设计时规定的英文翻译,痛苦的要命,竟然傻到用print screen截取画面到画图板,再回粘到word中,够白了:(最近连做几份商务标书,从honeywell本部获取的业绩资料全部是英文版的pdf,为了不再被折磨,花费了一个晚上的时间研究pdf和word文件的转换,找到下面2种方法,出于无产阶级所谓的同甘共苦之心,共享下:)
1、实现工具:office 2003中自带的microsoft office document imaging
应用情景:目前国外很多软件的支持信息都使用pdf方式进行发布,如果没有adobe reader,无法查看其内容,如果没有相关的编辑软件又无法编辑pdf文件。转换为doc格式则可以实现编辑功能。尽管有些软件也可以完成pdf转换为doc的工作,但很多都不支持中文,我们利用office 2003中的microsoft office document imaging组件来实现这一要求最为方便。
使用方法:
第一步:首先使用adobe reader打开待转换的pdf文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“microsoft office document image writer”,确认后将该pdf文件输出为mdi格式的虚拟打印文件。
编辑提示:如果你在“名称”设置的下拉列表中没有找到“microsoft office document image writer”项,那证明你在安装office 2003的时候没有安装该组件,请使用office 2003安装光盘中的“添加/删除组件”更新安装该组件。
第二步:运行microsoft office document imaging,并利用它来打开刚才保存的mdi文件,选择“工具→将文本发送到word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行ocr。这可能需要一些时间”,不管它,确认即可。
编辑提示:目前,包括此工具在内的所有软件对pdf转doc的识别率都不是特别完美,而且转换后会丢失原来的排版格式,所以大家在转换后还需要手工对其进行后期排版和校对工作。
2、实现工具:solid converter pdf
应用情景:利用office 2003中的microsoft office document imaging组件来实现
pdf转word文档在一定程度上的确可以实现pdf文档到word文档的转换,但是对于很多“不规则”的pdf文档来说,利用上面的方法转换出来的word文档中常常是乱码一片。为了恢复pdf的原貌,推荐的这种软件可以很好地实现版式的完全保留,无需调整,而且可以调整成需要的样板形式。
使用方法:
1、下载安装文件solid converter pdf,点击安装。
编辑提示:安装前有个下载安装插件的过程,因此需要保证网络连接通畅。
2、运行软件,按工具栏要求选择需要转换的pdf文档,点击右下的“转换”(convert)按扭,选择自己需要的版式,根据提示完成转换。
我猜测的话,你要转化的内容一般都是从网上下载的,但是下下来后发现,是pdf格式的,做到这里,你的第一反应绝对是下一个pdf转换成word的软件嘛(我之前也是,我用的anybizsoft pdf to word)。遗憾的,转换之后才发现,原来呀,即使成了word,但是里面还是图片格式,根本无法编辑……彻底无语!好,又继续想办法嘛,可不可以用汉王ocr,直接就把pdf转换成了word?果断试一下,结果发现,转换出来的txt完全是空白!!!!太坑爹了!!!会不会是软件坏了呢?先卸载了,再下载一个新的试一下,结果……不说了,蛋都碎了!思考一下,会不会是完全的照片格式才能转换,而不是的pdf?又把已经转换出来的word里面的照片复制出来,然后用汉王ocr,可是可以了,但是80%都是错误的,还有些完全不认识的符号!没有整出来,怎么可以放弃呢?好嘛,继续想!会不会是汉王不好呢,但是网上又说好得很哒,我就不信这个邪,我就要换一个试一下,清华紫光,no!尚书,no!赛酷,no!no!no!(妈哟,试用版一次只能转换一页!!)……………………就这样,眼睛一闭一睁,一天过去了……………………
看到好多同学,为了这个事儿啊,真的伤透了心(其实我也是哈)。我告诉大家一个方法,虽说不是最好的,但是很优越哦。
在网上下载一个 冰点文库下载2.6 (这是个软件),有两个好处:第一 百度文库里面的东西随便下载,不管他要的财富值是好多,哪怕是10000……亿,只要地址一复制,点击下载,再多都只能管屁用!第二,下载之前,点击右上角 菜单―系统设置,把里面的“导出txt文件”勾上,(本来默认的就是哈)你下载的pdf里面虽然是照片格式,但是下完之后,在你们目录里面同时含有pdf和可以编辑的txt!但是,有两个不好的地方就是,要是pdf里面的照片要图像,txt里面不能显示;出来的txt文字决定没有错误,但是不像编写的文档那样整齐,比如 标点符号丢失,一行的文字变成了两行等。总的来说,算是很优越的了,希望对大家有帮助!