2022-12-13 22:56:37

如果
pdf是图片转化来的,就不会识别的。你还不如直接把pdf保存成jpg图片,然后用ocr软件直接识别。再一个如果pdf底纹太重的话,也识别不了的。
pdf有一种是word文本直接转成pdf的,这种方法的pdf再软化成word就非常方便。还有一种pdf是photoshop之类的图像软件制作的,这种方式制作的pdf只能再转换成图片,然后再用ocr识别。
方正ocr是一个比较好用的,我的印刷厂经常会排人家拿现成的书,我就让打字员用扫描仪扫描,保存成jpg格式的图片,然后就用方正ocr识别。
另外office 2003及以后的所有版本,只要是安装企业完全版,并且在安装时选择自定义,就都有图像识别成word文档的功能。这个功能在开始-程序-office -office 工具中。
pdf转word出现乱码是什么原因?

是因为pdf转换工具对pdf的识别效果不好,现在转换效果最好的还是adobe acrobat professional,里面有一个功能是ocr文本识别,在菜单栏中的“文本”-“ocr文本识别”。通过识别后再转换,这样出现乱码的情况就可以减少很多。
我的pdf文件转换成word之后都是乱码,这是怎么回事呀...

不知用的是什么软件?
一、pdf原文件格式不清晰、杂点多,可以重新处理原稿,重新扫描生成或找寻其它清晰版本;
二、页面倾斜角度过大,在转换识别软件中一般会有页面倾斜校正一项;
三、转换识别时语言要根据内容时行设置,如英语或简体中文。
pdf转换成word后乱七八糟的,都串行了,看不懂 - 百度...

这个是有可能发生的,其它文档转成pdf后能基本保持原来视觉效果(格式并不一定一样,因为不同文档采用的是不同的原来),如果你的pdf文档不是word生成的,那么转成word后格式是有可能差别很大的。