2022-12-01 23:07:36
为什么由pdf转换成word后出现乱七八糟的字
出现乱码是由于你的pdf文档是由扫描图片制作而成的,转换软件不能识别这些图片,所以转换后出现乱码。你必须使用ocr文字识别工具才能解决这一问题。
abbyy finereader 10 corporate edition 就是一款很好的ocr工具,你到网上搜索这个软件的破解版或者绿色版,可以找到下载地址。
如果pdf是图片转化来的,就不会识别的。你还不如直接把pdf保存成jpg图片,然后用ocr软件直接识别。再一个如果pdf底纹太重的话,也识别不了的。
pdf有一种是word文本直接转成pdf的,这种方法的pdf再软化成word就非常方便。还有一种pdf是photoshop之类的图像软件制作的,这种方式制作的pdf只能再转换成图片,然后再用ocr识别。
方正ocr是一个比较好用的,我的印刷厂经常会排人家拿现成的书,我就让打字员用扫描仪扫描,保存成jpg格式的图片,然后就用方正ocr识别。
另外office 2003及以后的所有版本,只要是安装企业完全版,并且在安装时选择自定义,就都有图像识别成word文档的功能。这个功能在开始-程序-office -office 工具中。
pdf转换成word为什么只有图片,没有文字了
如果这样的话,表明你的pdf是扫描或图片生成,其中的文字是图片方式而非文本方式,
一般的转换软件无法识别图片中的文字,所以
转换成word后没有文字了。
只有借助ocr(光学字符识别)技术才能将非文本格式的文字识别出来,但市面上常见的这类
转换工具ocr识别成功率都不高,故出现像你这样的转换后没有文字现象比比皆是。
除非你能找到识别率很高的ocr工具,否则想全部提取pdf中的文字,太难了。