应该说,pdf文档的规范性使得浏览者在阅读上方便了许多,但倘若要从里面提取些资料,实在是麻烦的可以。回忆起当初做毕业设计...
pdf转换成word文档(大家记一下,绝对实用) (原有的,找不到了,终于又碰到了) 2008-10-13 17:19 | (分类:默认分类)
应该说,pdf文档的规范性使得浏览者在阅读上方便了许多,但倘若要从里面提取些资料,实在是麻烦的可以。回忆起当初做毕业设计时规定的英文翻译,痛苦的要命,竟然傻到用print screen截取画面到画图板,再回粘到word中,够白了:(最近连做几份商务标书,从honeywell本部获取的业绩资料全部是英文版的pdf,为了不再被折磨,花费了一个晚上的时间研究pdf和word文件的转换,找到下面2种方法,出于无产阶级所谓的同甘共苦之心,共享下:)
1、实现工具:office 2003中自带的microsoft office document imaging
应用情景:目前国外很多软件的支持信息都使用pdf方式进行发布,如果没有adobe reader,无法查看其内容,如果没有相关的编辑软件又无法编辑pdf文件。转换为doc格式则可以实现编辑功能。尽管有些软件也可以完成pdf转换为doc的工作,但很多都不支持中文,我们利用office 2003中的microsoft office document imaging组件来实现这一要求最为方便。
使用方法:
第一步:首先使用adobe reader打开待转换的pdf文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“microsoft office document image writer”,确认后将该pdf文件输出为mdi格式的虚拟打印文件。
编辑提示:如果你在“名称”设置的下拉列表中没有找到“microsoft office document image writer”项,那证明你在安装office 2003的时候没有安装该组件,请使用office 2003安装光盘中的“添加/删除组件”更新安装该组件。
第二步:运行microsoft office document imaging,并利用它来打开刚才保存的mdi文件,选择“工具→将文本发送到word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行ocr。这可能需要一些时间”,不管它,确认即可。
编辑提示:目前,包括此工具在内的所有软件对pdf转doc的识别率都不是特别完美,而且转换后会丢失原来的排版格式,所以大家在转换后还需要手工对其进行后期排版和校对工作。
2、实现工具:solid converter pdf
应用情景:利用office 2003中的microsoft office document imaging组件来实现
pdf转word文档在一定程度上的确可以实现pdf文档到word文档的转换,但是对于很多“不规则”的pdf文档来说,利用上面的方法转换出来的word文档中常常是乱码一片。为了恢复pdf的原貌,推荐的这种软件可以很好地实现版式的完全保留,无需调整,而且可以调整成需要的样板形式。
使用方法:
1、下载安装文件solid converter pdf,点击安装。
编辑提示:安装前有个下载安装插件的过程,因此需要保证网络连接通畅。
2、运行软件,按工具栏要求选择需要转换的pdf文档,点击右下的“转换”(convert)按扭,选择自己需要的版式,根据提示完成转换。
如何把adobe acrobat 的pdf格式的文档转为word能够读取、编辑的文档。对于这个问题,不少用户存在两种误解。一是认为adobe acrobat pdf文档是图形格式,无法被word读取; 二是认为虽然pdf也包含文字代码信息,但word没有相应的pdf格式转换器,所以无法读取。本文将向您介绍如何把pdf文档读入word。
了解pdf文档
---- pdf文档到底是什么?
---- pdf是出版和图形领域的软件厂商adobe制定的电子文档格式标准。adobe为之提供了免费的文档浏览器--adobe acrobat reader以及相应的编辑软件--adobe acrobat,后者可以对pdf文档中页面的组织、链接进行编辑,对文档进行批注等等。而adobe的另外一款软件--illustrator则可以从各个细致入微处修整pdf文件。与普通格式的电子文档(如纯文本、超文本、rtf格式以及word文档等)相比,pdf文档具有能够完善保持版面样式、跨平台等优越性,所以国外许多组织机构在发放无需再次编辑的文件时通常选择使用pdf格式。在我国,许多电子书籍也开始采用pdf格式。
---- 创建pdf文件的典型方法并不是使用illustrator等软件来编辑,而是先用普通的文字处理和桌面排版软件如word、wordperfect和pagemaker等编排好文档,然后通过adobe的pdf distiller或者pdf writer等仿打印机引擎制作pdf文件。另外也有一些pdf文档是直接使用adobe acrobat配合扫描仪将原书稿扫描制作完成的,虽然该软件配有支持对多种西方文字进行光学字符识别(ocr)的插件,但是为了保证文字的可靠性,多数情况下采用这种方法制作的pdf文件没有进行字符识别。
---- 从以上的介绍我们可以看出,pdf文件中的文字存在两种可能性: 其一,可能是以计算机字符代码的形式被包裹在文件中; 其二,也可能只是一个页面图像中的像素组成的线条,没有字符代码信息。很明显,只有第一种pdf文档可以通过word打开和编辑。
让word读取pdf文档
---- 下面我们就来看一下如何让word读取包含字符信息的pdf文档。由于adobe公司在2000年就发布了4.x版本的acrobat reader,比以往的版本功能有所增强,所以我们就以这个版本为例来讨论。
---- 实际上,word至今也没有pdf文档的转换器,因而无法对其直接读取。我们采用的还是"剪刀+浆糊"的办法。
---- 1.拷贝文字
---- 通常情况下,如果需要拷贝pdf中某一页面上的所有文字,您可以进行如下操作。
定位页面。
单击工具栏上的"text select tool"按钮。
选择"edit"*"select all",再选择"copy"(如图1所示)。
切换到word,按"粘贴"按钮(或ctrl+v)把内容贴到word文档中。
--- 如果需要拷贝的是整篇pdf文档,则可以按照下面的步骤进行。
打开pdf文件后,选择"view"*"continuous"(如图2所示)。
选择"edit"*"select all"。
拷贝选中的内容。
切换到word,粘贴内容。
---- 使用这种方法拷贝到word文档中的文字会保持基本的字符格式,比如粗体、斜体、字符大小等等,但是不会具有样式等方面的设置。对于较复杂的文档,可能需要耐心进行调整。
---- 2.拷贝图片
---- 如果需要拷贝pdf文档中的图片,首先要找出一个隐藏的工具按钮"graphics select tool"。具体办法如下。
---- (1)按下"text select tool"按钮,不要松开鼠标左键,该按钮会向右延展,显示出额外的几个按钮(如图3所示)。根据按钮的文字提示,选择正确的按钮(熟悉photoshop、coreldraw等绘图软件的用户对于这种一钮多用的情况并不陌生)。
---- (2)把鼠标指针移到pdf页面上,此时指针呈十字形。拖动选择好图片区域,拷贝。
---- (3)回到word文档,粘贴即可。
---- 拷贝图片不仅支持拷贝pdf文档中的图片到word,实际上,我们可以选择任意区域,如文字区、图片区、文字和图片混合区,拷贝后粘贴到word中,它们都会被当作图片插入到word文档。
---- 需要注意的是,有的pdf文档由于制作的时候设置了某些安全选项,禁止我们拷贝其内容。如果要了解这方面的设置,可以通过选择"file"*"document info"*"security"查看(如图4所示)。如果其中的"selecting text and graphics"一项被设置为"no",这时上述拷贝文字和图像方法就不起作用了。此时,惟一的权宜之计就是使用print screen键或者其他的抓图软件获取某些pdf文档的画面。
要看pdf中文字是不是矢量的。用adobe.acrobat(不是免费的adobe reader)打开pdf文件,使用文字选择工具编辑文字,如果可编辑,就可复制出来粘贴到word里。
这样的pdf一般是word通过acrobat插件制作的。
如果文字是图片格式,那么也不麻烦。可以用photoshop打开,存成jpg图片。用ocr软件识别这些图片即可。不过这样比较麻烦,还需要校对和排版。