帮助中心 >
pdf转word字体模糊-PDF里看起来字比一般的大,但是不清晰,有的PDF可以直...
2023-01-01 19:01:01
pdf里看起来字比一般的大,但是不清晰,有的pdf可以直...
图形格式造成的pdf文件因分辨率设置的原因,放大就不清晰了。文本格式的pdf文件,放大就清晰。
如果不是图片类做成的pdf 你可以转换成word格式后进行编辑, 但是如果是内嵌了字体的,那么就要看情况了,因为有的字体你系统里面有,转出来就没有问题,如果系统里面没有,那么转出来就是一堆乱码;一些用户为了避免别人转换,特意引入了一些特殊字体,复制和转换出来都是乱码。对于是图片和没有字体(乱码)做成的pdf文件,那么我们就需要用ocr类软件进行识别了,软件有:清华紫光ocr;尚书七号;leadtools ocr;赛酷ocr;汉王文豪7600(图形ocr识别成word或excel);汉王hw_pdf_ocr_81(推荐:pdf文件、图形,ocr识别成word或excel);abbyy finereader(推荐)
我用汉王hw_pdf_ocr_81,可在汉王官方网站 主页右下角有免费的正版下载,下载地址
www.hw99.com/
不明白时,在百度hi中联系
英文pdf文件,复制到word大部分是乱码,应该不是加密...
谈pdf与word互转
在日常工作中,我们常用word进行编辑文档,它便于修改、排版、打印。但对标准来说,大多是pdf格式,这样的格式对于后期复审和修订时需要改动、调整很不方便,有必要转换成word文本格式。同时有时为了让自己写的word文档不轻意让别人修改,也可以做成pdf格式。今天我就图片、pdf与word之间格式互转探讨如下:
简要目录
一、图片与pdf格式互转…………………………………1
二、pdf转成word…………………………………………10
三、word转成pdf…………………………………………24
四、注意事项………………………………………………28
一、图片与pdf格式互转
(一)、把扫描图片制成pdf
为了方便阅读和下发,我们一般是把书面材料扫描成图片,通常扫描图片格式有jpeg、bmp、tiff等,再用软件制成pdf文档。如果只是为了识别,建议在扫描图片时大家设置成bmp格式、黑白、分辨率设置在300以上。把书本订书针拆开,一页一页平整放在扫描仪上进行扫描,这样扫描的图片才清晰美观,才能进行后期编辑和识别。
把多张图片制成pdf,请注意先把图片按顺序编好号,制成dpf一般采用下面的简单方法:
1、把image to pdf软件夹复制到硬盘任意目录,点击“image to pdf”图标启动主程序。
2、先点击主界面中的“设置”进行软件的相关设置,注意此软件是设置好后下次生效,即设置好了后关掉该软件,再打开软件时才会生效。设置内容如下:
(1)、输出方式一般是选第一个,即只生成一个pdf,其它默认。
(2)、在图像处理这项,如果选择jpeg,那要注意最底下的压缩质量这项,数值设置太大,生成的pdf体积就最大,当然也最清楚,反之体积就越小,可以通过细调获得最好的效果。
(3)、页设置这项,一般选择a4纸,由于图片是扫描的本就包括了页边距,故在此不需再设置页边距。此外,像pdf水印、加密、信息等其它项,如果要求不高都可以用默认值。
3、点击“文件――添加文件”,找到扫描好并且已经编好号的图片,选定全部图片后打开,打开后你还可以在右边调整顺序。
4、点击“生成pdf文件”,过一会儿就可以在存放图片的文件夹里看到刚才转换生成的pdf文件。如果对生成的文件质量不满意,可以通过调整设置里的“图像处理”里的参数来更改文件。以下为转换过程和转换结果。
(二)、pdf文档分解成图片
有时为了方便地插入文档中,或者我们只需要pdf里面的某一段、某一页,此时就需要把pdf分解成图片。考虑到图片质量、大小、及后期处理方面,请一定注意软件的设置。此时我们需要用到另一款绿色小软件pdf to image,这个软件的名字和上面那个软件的名字是反过来的,故功能也是相反的。
1、把pdf to image软件夹复制到硬盘任意目录,点击“pdf to image”图标启动主程序。
2、先点击“设置”进行软件的相关设置,注意此软件也是设置好后下次生效,即设置好了后关掉软件,再打开软件时才会生效。设置内容如下:
(1)、常规选项一般不用改动,当然你可以自定义路径。
(2)、页面选项里,一般是所有页面,缩放比例100%。后面的重命名选项一般不用改动。
(3)、图像选项这里比较重要,如果只是插到文档里,可以选jpeg,分辨率100就足够了。但如果为了后期识别,源文件又是黑白的,经过多次实验得出可以选jpeg格式,分辨率设置300以上,用灰度8位就行,品质50%以上就可以,这样生成的图片比较清晰,后期识别也没有问题。当然,前提条件是你的pdf也很清晰。
3、点击添加文件,找到你需要把它分解成图片的pdf,打开。
4、点击转换,开始进行转换。完成后,在你设置保存模式的文件夹里就可以看到转换好的图片。当然,你还可以根据需要设成别的图片格式。
二、pdf转成word
平时我们使用的pdf格式文档,一部分是由word文档转成,但绝大部分是把纸面材料扫描成图片,再制成pdf,通常下载的标准就是这样制成的,这种格式具有阅读直观、保护作者著权、打印方便等特点。在了解这两种形式后,我们就可以入手解决转换问题了。
(一)、针对word文档转成pdf格式
有些pdf格式是直接由word、excel等文档直接转化成的,这类格式的转换,只需要安装软件solid converter pdf,就很容易再还原成word文档。此软件是绿色软件,不需要安装。
1、把solid converter pdf软件夹复制到硬盘上任意目录,点击“solid converter pdf”进入软件的主程序。
2、进入软件操作界面。你可以在右边的选项里对保存路径、输出格式等参数进行设置。
3、双击打开需要转换pdf文件,软件会进入一些转换设置。在这儿,你可以根据实际需要进行设置,通常是选择“页面流程”。
4、点击“下一步,下一步……”进行设置。在每一步中,软件界面都有示范,可以根据需要进行选择。通常可以选定文件后在进行版面设置时直接点击“最后一步”,完成转换,结果如图。
5、再进行页面、字体、段落、表格等简单设置和调整,得到最终文档如图。
(二)、扫描图片转成word
现应用的标准大都是把打印好的纸面材料扫描成图片,再制成pdf格式。如果为了得到文本方便后期修改,我们可以先不用制成pdf格式,而是直接通过ocr识别软件将图片一个字一个字进行识别。此时要用到ocr软件“汉王文本王文豪7600全能专业版”,这是一个安装文件,需先进行安装,再进行破解。用这种方法这个软件来识别一些表格比较多的定额标准效果特别好。
1、点击汉王文本王文豪7600全能专业版软件夹里的setup进行安装。根据实际情况选好路径,其它组件可以不用选。安装完成后,把“完美破解”文件夹里的全部文件复制到安装目录下,覆盖原文件,这样就完成了破解。
2、运行桌面上的“文本王专业版”快捷方式启动该软件,其它不需要的快捷方式可以删掉。软件主界面如下:
3、用“文件――打开图像”打开扫描好的图片,注意所有图片应该提前按内容顺序排好序号。
4、点击“分析”旁边的下拉三角形,选择“分析全部”后,再点一下“分析全部”。软件会一页一页地进行分析,分析完了后自动停止。设置好了后下次可以直接点“分析全部”。
5、点击“识别”旁边的下拉三角形,选择“识别全部”后,再点一下“识别全部”。软件会一页一页地进行识别,识别完成后自动停止。设置好了后下次可以直接点“识别全部”。
6、识别完毕后,一定要注意用鼠标全部选择左边栏打开的那些图片,再点击“导出wrod”,这样就把识别好的文档自动排版成word格式了。此时千万要注意,确保你的电脑没有打开其它的文档,否则它就会在你打开的文档后面添加识别结果。当然,这个识别软件还有很多别的选项和功能,大家感兴趣的话可以自己实验。
7、识别完成后文档会自动打开。这就是识别完后自动打开的word,效果还可以吧?大家千万别以为这就完事了,接下来还有很多工作要做。
8、整个识别工作就算完成了,此时就可以关掉那些软件和其它程序,接下来就需要细心地调整这个还不太成熟的word文档。
(1)、首先应该是要保存,因为刚才转换完后自动打开的“文档1”只是存放在内存里,另存为word就可以了,名字和路径随你定。接下来要设置其它的东西了,在设置前请朋友们最好全选文档。
(2)、进行页面设置,一般都是a4,当然还有页边距等。在这儿,生成的那个文档其实已经默认好了,你可以根据实际情况更改。
(3)、设置字体、字号、段落等,我们可以先把文档全部设成宋体、5号字,段落可以先统一设置如图:
(4)、然后,可以把文本里的“空格”全部替换掉,具体方法大家都会吧?在“查找内容”那儿敲入一个空格,“替换为”那儿什么都不输,然后点全部替换,怎么样,美观多了吧?
(5)、硬回车的消除。这个在一些表格里比较多,如果不消除会影响美观,方法还是用“替换”,即把“段落标记”替换为空即可,但有些文字描述的段可能也会乱,这个就需要手动修改,毕竟不多。
(6)、还有其它好多格式可以的替换来处理,大家可以慢慢试。像图片里的的页眉,即标准号之类的,同样可以用替换法去除。
(7)、把word文档里的表格导出到excel中。有时为了方便数据的整理和下发给各单位采集数据,需要把标准里的表格单独提出来进行处理,可以用以下方法简单解决。
首先在word文档中选择“文件→另存为”,在文件类型中选择“单个网页文件”。接下来打开excel,选择“数据→导入外部数据→导入数据”,在“选择数据源”对话框中选择我们刚刚保存的htm文件,单击“打开”。在“新建web查询”窗口中点击你要导入的表格数据前面的黄色“箭头”标记(如果不进行勾选标记,默认的将是全部导入,一般全部导入),最后选择“导入”,并选择“数据的放置位置(一般默认)”即可。最后,还是需要手动调整表格,但这个就比较简单了。删除不需要的文字描述后,根据需要进行调整。
(8)、最后最重要的一步就是,删除乱码,同时仔细校对。在粗略的校对中,我们一般看有乱码的地方和有红色标记的地方进行修改就可以了。其它细节问题,只有手动慢慢调整了。
(三)、扫描图片制成的pdf转成word
通常有两种方法,一种是先把pdf转成一组图片,再把ocr识别软件识别成word,这两步上面都介绍过了。另一种方法就是运用另一款识别软件直接进行识别,这种方法针对表格很少的定员标准非常合适,举例如下:
1、安装“汉王 pdf ocr v8.1简体中文版”,这不是绿色软件,需要安装,但这个软件是免费的,不需要破解。安装完成后运行桌面上的“汉王 pdf ocr”快捷方式,启动软件主界面如图。
2、点击“文件――打开图像”,选择一个表格很少的pdf定员标准进行识别。这个软件的优点是可以直接打开pdf文件进行识别,当然也可以打开图像文件进行识别。
3、软件会自动识别出此pdf包括多少页图像,而且会把pdf自动当作图像一张一张地拆开,方便后期进行识别,直接点确定。
4、点击确定后,大家看看是不是和上一个汉王的软件很相似呀,当然了,因为他们是一个公司出的两个软件。
5、注意工具栏上的那些小按钮功能,把鼠标放上去后会有提示。特别注意操作每一步时都要先点工具栏的“选定全部。”否则只是对当前的一张图片进行了操作,全部选定后点击“版面分析”,分析完成后,点“开始识别”。
6、识别完成后,我们需要保存识别结果了,点击“输出――到指定格式文件”,保存格式选“rtf”。实际上rtf可以看成是简化的word,可以直接用文本打开,当然它默认的也是word打开。
7、保存到指定的路径后,打开文档,看看是什么样子,效果应该不错的。但仔细看一下,为什么一段一段地都有文本框框着的呢?这点很不方便后期修改,需要去掉。下面说一种简单的方法。
8、首先保存为word,因为刚才生成的是rtf格式,然后进行页面设置、字体设置、段落设置等,和上一个识别软件一样要进行必要的基本设置和调整。再就是全部选定,“复制”――“选择性粘贴”――“无格式文本”,效果还满意吧。
9、最后进行删除硬回车操作和进行其它设置、修改、仔细校对等,完成最终工作。
三、word转成pdf
有时,我们也需要将自己做好的word文档生成pdf,用一个小软件doctopdf很容易实现。这是个英文软件,需要安装和运行注册机算号注册,简单介绍如下:
1、把doctopdf软件夹复制到硬盘任意目录,关闭所以打开的word文档,点击“doc2pdf”开始安装主程序,按默认值安装就行。
2、打开任意一个word文档,你会发现在工具栏下面多了几个插件,第一次使用时点击“save as pdf”进行注册,以后点“save as pdf”就会直接开始转换。在弹出对话框中选“register”进行注册。
3、进入此界面后,再打开另doctopdf软件夹里的另外一个程序“keygen”进行算号。在“name”栏随便输入英文名字,软件会自动在下面的“serial”生成序列号。
4、把用注册机生成的名字和序列号分别填入刚才要注册的那个窗口。按“register”键进行注册,此时会有英文显示注册成功。
5、再点击插件栏的第二个图标,进行软件设置,设置如图。其中输出路径可以根据实际情况修改就行,其它设置按默认就可以。
6、点ok后会让你再确认输出文件路径和名字,填好后保存,完成转换,软件会自动打开生成的pdf进行查看,到此转换完成。用此方法转换成的pdf是非常完美的。
四、注意事项
1、原书面文本一定清楚,扫描时一定要设置好和操作好,这样扫描的图片才能很清楚,才能使后期识别顺利进行。
2、网上下载的pdf也一定要清楚,如果是歪歪斜斜的、模模糊糊的,后期很不好识别。
3、文章里介绍的ocr识别软件,一般会在相应的文件夹生成一些相对应的文本文件和其它文件,保存结果后可以直接删除即可。这些文件通常是为了方便下次进行再识别而保存的。
4、文章介绍的所有软件经多款对比、试用正常后推荐使用。
4、没有十全十美的方法,这样做仍需要费时费力。这些方法是我经过大量实验,花了大量时间总结出来的,也有不成熟的地方,希望对大家有所帮助。