第三方软件:
可以使用pdf2word软件(是一款pdf文档转换工具,能够从pdf格式文档中提取文字、图形和及其它内容并放入word格式文档中,因此你就能重复利用你的pdf文档内容,在word中再编辑文字、排版及重整布局;此外它还是一个独立软件,不需要安装microsoftword、adobeacrobat软件支持。)
软件优点:pdf转换成word转换器(pdf2word)是一款利用ocr技术,将pdf格式(不可直接编辑的光栅格式)转换成为可编辑的doc格式或者txt格式,只要是清晰可辨的pdf格式(不推荐使用扫描件),都可以完美的将pdf转换成完全可编辑的office格式。本软件可以脱离acrobat的插件工具独立运行,您根本不需要安装体积庞大的acrobat,就可以简单轻松的转换。
注意事项:但是生成的文件是word图片格式,对文字编辑没有作用。对于特殊性的pdf文件,在使用软件转换后可能存在一些网站本身生成自带文字,请先查看后转换。
或者使用office 2003转换:
也可以利用office 2003中的microsoft office document imaging组件来实现
pdf转word文档,也就是说利用word来完成该任务。方法如下:
第一步:用adobe reader打开想转换的pdf文件,接下来选择“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置为“microsoft office document image writer”,确认后将该pdf文件输出为mdi格式的虚拟打印文件。
(注:如果在开始菜单microsoft office程序组件里没有找到“microsoft office document image writer”项,可能是没有安装该组件,然后再使用office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“office 工具 microsoft draw转换器”。)
第二步:运行“microsoft office document imaging”,并利用它来打开刚才保存的mdi文件,选择“工具→将文本发送到word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行ocr。这可能需要一些时间”,不管它,确认即可。
注:对pdf转doc的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。
以上仅在word2003中可用,其他版本没有microsoft office document image writer。
1. 乱码的问题是因为pdf内嵌了非标准的字体。这类问题一般用ocr识别来识别出文字 ,然后自己再校核排版处理,没有其他的好办法。
2. 分栏目前也只有你自己一栏栏复制到一个新的文件中后再排版。