1、利用软件转换
目前大家最常用的pdf转换word的工具是solid converter pdf。该软件使用较简单,转换以后要自己排版,但是该软件只针对一些pdf文档有效,对于早期的pdf文档就无能为力了。另一种工具是foxit家族的foxit pdf text converter,该软件功能不如 solid converter pdf功能强大,只能将pdf转换为文本文档,同时同样存在对一些早期的pdf文档不能转换的弊端。
2、利用office 2003进行转换
网上流传一种利用office 2003进行转换的方法, 其主要利用office 2003 中的 microsoft office document imaging 组件来实现
pdf转word文档。其具体方法如下:
用adobe reader 打开想转换的pdf文件 ,接下来 选择 “文件→打印”菜单,在打开的“打印”窗口中将 “打印机”栏中的名称设置为 “microsoft office document image writer”,确认后将该pdf文 件输出为 mdi格式的虚拟打印文件 。
然后, 运行 “microsoft office document imaging”,并利用它来 打开 刚才保存的mdi文件,选择“工具→ 将文本发送到word ”菜单,在弹出的窗口中选中“ 在输出时保持图片版式不变 ”,确认后系统会提示“必须在执行此操作前重新运行 ocr 。这可能需要一些时间”,不用管它, 确认即可。
注:
①如果没有找到“microsoft office document image writer”项,使用office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“office 工具 microsoft draw转换器”。
②对pdf转doc的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。
③以上仅在 word2003 中可用,其他版本没有microsoft office document image writer。
3、万能转换方法
该方法适用于大多数pdf文档,原理同样是利用ocr识别技术,前边处理和方法2差不多,目的是将pdf转换为图片格式,后期利用专业ocr软件识别。用adobe acrobat打开pdf文档,另存为jpg。然后再用汉王(或者其他ocr软件,如尚书、紫光等)打开jpg ,再点击版面分析-文字识别,插入word,就可随便编辑了。识别的时候同样存在一些错误,要仔细校对。