2022-11-25 18:35:16
pdf文档转换为word后遇见的问题
1. 乱码的问题是因为pdf内嵌了非标准的字体。这类问题一般用ocr识别来识别出文字 ,然后自己再校核排版处理,没有其他的好办法。
2. 分栏目前也只有你自己一栏栏复制到一个新的文件中后再排版。
如果pdf是图片转化来的,就不会识别的。你还不如直接把pdf保存成jpg图片,然后用ocr软件直接识别。再一个如果pdf底纹太重的话,也识别不了的。
pdf有一种是word文本直接转成pdf的,这种方法的pdf再软化成word就非常方便。还有一种pdf是photoshop之类的图像软件制作的,这种方式制作的pdf只能再转换成图片,然后再用ocr识别。
方正ocr是一个比较好用的,我的印刷厂经常会排人家拿现成的书,我就让打字员用扫描仪扫描,保存成jpg格式的图片,然后就用方正ocr识别。
另外office 2003及以后的所有版本,只要是安装企业完全版,并且在安装时选择自定义,就都有图像识别成word文档的功能。这个功能在开始-程序-office -office 工具中。
如何把pdf文件转化为word文件?
pdf to word:
pdf格式编辑软件很多:
1.用solid converter pdf professional 可以在pdf与word互相转换,也就可以编辑了;
2.用adreamsoft_pdf_toword以转换成word,就可以编辑了;
3.汉王pdf_converter,免费软件,可以让pdf转换成word或txt;
4.用foxit pdf editor可以直接编辑了,网上有pj的软件;
5.用foxit phantom可以直接编辑了,网上有pj的软件。
6.abobe acrobat professional 也有部分编辑功能,网上有pj的软件。
7.汉王hw_pdf_ocr_80可以转换成word或txt,也可以进行ocr识别。
如果加密了,对于一些不允许做修改的pdf文件(就是加密加了权限的pdf),那么就先要去除密码或者去除数字证书,软件有:
1.pdf password remover
2.adult pdf password recovery
如果不是图片类做成的pdf 你可以转换成word格式后进行编辑, 但是如果是内嵌了字体的,那么就要看情况了,因为有的字体你系统里面有,转出来就没有问题,如果系统里面没有,那么转出来就是一堆乱码。
对于是图片和没有字体(乱码)做成的pdf 那么我们就需要用ocr类软件进行识别了.
用汉王hw_pdf_ocr_80在汉王官方网站 主页右下角有免费的正版下载:pdf转word,以及图片格式的pdf整体ocr识别。
http://www.hw99.com/
pdf转换成word出了问题
可能pdf是由图片转成的。那样的话是无法转成txt的,但应当可以在word里看到,建议右击“空白”处,在弹出的菜单上是不是出现“设置图片格式”的选项,如是,就点它,设置“版式”成合适的(一次不行可试多次)。
为什么由pdf转换成word后出现乱七八糟的字
出现乱码是由于你的pdf文档是由扫描图片制作而成的,转换软件不能识别这些图片,所以转换后出现乱码。你必须使用ocr文字识别工具才能解决这一问题。
abbyy finereader 10 corporate edition 就是一款很好的ocr工具,你到网上搜索这个软件的破解版或者绿色版,可以找到下载地址。