2022-12-14 15:55:39
我的pdf文件转换成word之后都是乱码,这是怎么回事呀...
不知用的是什么软件?
一、pdf原文件格式不清晰、杂点多,可以重新处理原稿,重新扫描生成或找寻其它清晰版本;
二、页面倾斜角度过大,在转换识别软件中一般会有页面倾斜校正一项;
三、转换识别时语言要根据内容时行设置,如英语或简体中文。
pdf转换成word 但是pdf 里面的数学公式和符号转换不...
offiice2007 有这个功能!
自带了document imaging 安装office的时候选上
默认是不安装的!
还有很多ocr软件
我使用document imaging的时候感觉非常不错! 推荐一下
如果 公式 字母 中文 混排
任何软件都识别不全的!
用ocr就可以了.
比如office 2007中也提供了文字识别服务,结合那个image writer可以很方便将pdf转成word。
第一种方法:用snagit工具进行文字提取。
首先使用snagit的文字捕捉功能将文字提取出来。snagit当前版本为7.02,大小为8903kb,下载地址可以在 找到,汉化补丁可以在 找到。启动snagit,选择菜单“输入/区域”,选择菜单“工具/文字捕获”,然后我们打开要捕捉的文件窗口,按下捕捉快捷键,选定捕捉区域即可捕捉到文字。
接着用相应工具重排文字。此时我们发现提取的文字可能会有很多空格或段落错乱等现象,而且字号、字体等不合自己的心意。这时我们可以用熟悉的wps或word软件进行重新编排。我们以wpsoffice2007为例看看如何对付提取后文章的编排。
用wpsoffice2007打开提取文章;然后选择“工具”菜单下的“文字”/“段落重排”,这时你会看到提取文章重新进行排版;接下来选择“工具”菜单下的“文字”/“删除段首空格”命令,使得文章的每段参差不齐的行首空格被删除;再选择“工具”菜单下的“文字”/“增加段首空格”,文章变为正常的书写格式;提取文章一般都留有空段,为删除这些空段,继续选择“工具”菜单下的“文字”/“删除空段”命令,这时文章完全变为我们所要的形式;用你熟悉的界面任意编辑文章吧。
第二种方法:用屏幕截图然后让ocr软件识别。
打开带有文字的图片或电子书籍,翻到你希望提取的页面,点击键盘上的打印屏幕键(printscreen)进行屏幕捕获;打开windows自带的画图工具,将刚才捕获的屏幕截图,粘贴进去,保存为一个.bmp文件;接着打开刚才保存的文件,在编辑器中进行修正,根据你所要提取的文字进行裁剪,尽量去除不要的部分;最后启动ocr软件,在ocr中打开刚才保存的修改文件,进行文字识别,然后可随心所欲进行编辑。
pdf转成word 乱码
我也留个邮箱,但既然你都是乱码,我的也可能都是,如果我的也是的话,我就不回你了。 wangweiipp@126.com
你这pdf是因为为了保护版权,里面的字体是特有的,一般的电脑系统里面没有,我用pitstop替换,也没有找到好的字体可以识别的,pitstop这是个adobe acrobat的插件。因为没有字体所以直接复制出来都不行,是乱码,pdf转换软件并没有转错,只是我们的电脑没有那种字体所以显示不出来,要改变字体也很难,反正我没有找到,然后我试了一下orc,结果识别率并不高,有的识别能出来。如果你有耐心的话,建议你orc后自己一个个的改过来。
求助:pdf文件转word文件 出现乱码
之所以出现乱码,是因为你的pdf文件中的文字
是图片方式而不是文本方式,转换工具中的ocr(光学字符识别)无法正确识别造成的。
pdf中非文本方式的字符在转换过程中出现乱码
是正常现象。没有任何软件能实现100%识别的。所以还得辅助人工输入方式才能解决问题。