开通会员
  • 尊享所有功能
  • 文件大小最高200M
  • 文件无水印
  • 尊贵VIP身份
  • VIP专属服务
  • 历史记录保存30天云存储
开通会员
您的位置:首页 > 帮助中心 > pdf转word内容乱码-复制粘贴pdf文档内容中英文和数字会变乱码
帮助中心 >

pdf转word内容乱码-复制粘贴pdf文档内容中英文和数字会变乱码

2022-12-11 06:37:37

复制粘贴pdf文档内容中英文和数字会变乱码

复制粘贴pdf文档内容中英文和数字会变乱码
那是应为 字体支持的原因

我用的是cajviewer
cajviewer5.5_ocr v5.5.0 build 4030

说明:带ocr识别,带多语言包,ocr识别支持中英文识别。 大小:32.911 mb

1)局部文字识别:直接使用caj浏览器的ocr
2)全文件识别:打印到microsoft office document image writer打印机,选择打印形成的文件的保存位置,然后会自动形成一个mdi文件,并且自动用microsoft office document image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个 pdf文件识别输出到word文件中。

注意:microsoft office document image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到word中。(所有的识别软件都不能很好的处理图形的识别问题, microsoft office document image的这种处理方法已经是非常好的解决这个问题了。)

推荐快速方法:
从caj文件中提取文本前需要做好以下准备工作,安装caj文件浏览器5.5,安装office2003,并完全安装office工具 microsoft office document imaging,然后在打印机里面会增加microsoft office document image writer打印机。 microsoft office document image可以非常准确的全文件识别转化中文、英文、表格。
caj文件的识别:
(一)首先,从网上下载caj格式的资料文件保存到本地硬盘上。
(二)然后,启动cajviewer浏览器程序,并在该程序中打开刚才保存的caj格式的文件。浏览文件到最后一页后,不要关闭caj浏览器程序。
(三)在caj浏览器程序窗口中,选择“文件”→“打印”,并选择打印机为microsoft office document image writer打印机,勾选打印到文件选项和确定打印页数。
(四)保存打印文件(*.prn)到适当位置。等待打印完成后,microsoft office document image 自动打开刚才保存的打印文件。
(五)在microsoft office document image窗口中,选择“页面”菜单中的“选择所有页面”菜单项,然后选择“工具”菜单中的“使用ocr识别文本”提取文本。
(六)选择“工具”下的 “将文本发送到word”,最后将把整个caj文件识别输出到word文件中。

pdf里无法显示某些法语

pdf里无法显示某些法语
是带有音节的字母吧?éèçà这样的就会显示问号。
如果是别人传给你的pdf文档也就是说你没有写内容的源文件,那就没办法了,因为pdf是不能改变文字格式的,就像图片一样,很稳定的,这样的话你只能根据整个单词来猜了反正就这么几个带符号的排也排的下来;如果是你自己写的word或者其他什么格式转化成pdf时出现问题那就要看word格式里面文字的字体了,一般用arial tur都是正确的法文,好像arial ce也是吧~忘了,如果格式也对那就试试看给pdf升个级吧

怎样把word转pdf,要简单有效的,别整那么多没用的 - ...

怎样把word转pdf,要简单有效的,别整那么多没用的 - ...
应该说,pdf文档的规范性使得浏览者在阅读上方便了许多,但倘若要从里面提取些资料,实在是麻烦的可以。回忆起当初做毕业设计...
pdf转换成word文档(大家记一下,绝对实用) (原有的,找不到了,终于又碰到了) 2008-10-13 17:19 | (分类:默认分类)
应该说,pdf文档的规范性使得浏览者在阅读上方便了许多,但倘若要从里面提取些资料,实在是麻烦的可以。回忆起当初做毕业设计时规定的英文翻译,痛苦的要命,竟然傻到用print screen截取画面到画图板,再回粘到word中,够白了:(最近连做几份商务标书,从honeywell本部获取的业绩资料全部是英文版的pdf,为了不再被折磨,花费了一个晚上的时间研究pdf和word文件的转换,找到下面2种方法,出于无产阶级所谓的同甘共苦之心,共享下:)

1、实现工具:office 2003中自带的microsoft office document imaging

应用情景:目前国外很多软件的支持信息都使用pdf方式进行发布,如果没有adobe reader,无法查看其内容,如果没有相关的编辑软件又无法编辑pdf文件。转换为doc格式则可以实现编辑功能。尽管有些软件也可以完成pdf转换为doc的工作,但很多都不支持中文,我们利用office 2003中的microsoft office document imaging组件来实现这一要求最为方便。

使用方法:

第一步:首先使用adobe reader打开待转换的pdf文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“microsoft office document image writer”,确认后将该pdf文件输出为mdi格式的虚拟打印文件。

编辑提示:如果你在“名称”设置的下拉列表中没有找到“microsoft office document image writer”项,那证明你在安装office 2003的时候没有安装该组件,请使用office 2003安装光盘中的“添加/删除组件”更新安装该组件。

第二步:运行microsoft office document imaging,并利用它来打开刚才保存的mdi文件,选择“工具→将文本发送到word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行ocr。这可能需要一些时间”,不管它,确认即可。

编辑提示:目前,包括此工具在内的所有软件对pdf转doc的识别率都不是特别完美,而且转换后会丢失原来的排版格式,所以大家在转换后还需要手工对其进行后期排版和校对工作。

2、实现工具:solid converter pdf

应用情景:利用office 2003中的microsoft office document imaging组件来实现pdf转word文档在一定程度上的确可以实现pdf文档到word文档的转换,但是对于很多“不规则”的pdf文档来说,利用上面的方法转换出来的word文档中常常是乱码一片。为了恢复pdf的原貌,推荐的这种软件可以很好地实现版式的完全保留,无需调整,而且可以调整成需要的样板形式。

使用方法:

1、下载安装文件solid converter pdf,点击安装。

编辑提示:安装前有个下载安装插件的过程,因此需要保证网络连接通畅。

2、运行软件,按工具栏要求选择需要转换的pdf文档,点击右下的“转换”(convert)按扭,选择自己需要的版式,根据提示完成转换。

求【pdf】转【文字】 软件

求【pdf】转【文字】 软件
1.如果图片是英文字符用adobe acroabt ocr识别
2.如果图片是含有中文字符可以使用abbyy finereader professional v9.0.0.822,这个软件是全球排行第一的ocr软件,但是目前没有找到破解,仅能转50页,我试用过,效果相当好。
3.若是你自己扫描的,可以做成tiff的图档,用microsoft office document imaging的ocr功能。
方法:工具->使用ocr识别文本

急问:如何把png格式转成文档格式?(txt或word) - 百...

急问:如何把png格式转成文档格式?(txt或word) - 百...
用图象识别软件就可以解决了英文和中文的识别效果不一样的。如果png不能直接识别就转为bmp在用识别进行转换
推荐英文识别:abbyy finereader
中文识别:清华th-ocr
图象转换: acdsee就可以了

abbyy finereader ocr professional 8.0.0.706
软件大小:37497kb
软件语言:英文
软件类别:国外软件/共享版/办公软件
运行环境:win9x/me/nt/2000/xp
加入时间:2006-1-9 16:37:49
下载次数:85868
一款ocr软件。为用户提供了现代ocr赤铜的全部功能,给予它们对信息管理的完全控制。一旦你点击了“扫描读取”按钮,剩下的事情将自动完成,因此你不需要花费几个小时来学习用户指南。你可以把辨认过的正文放到字处理或电子表格程序中,保存成rtf、doc、pdf或html格式(保留全部文档排版),或输出辨认后的文本到数据库应用软件中。新版本增强了识别能力和版面保持能力;增强了pdf的识别能力;可输出ms word xml格式;增加了新的编辑能力....
http://www.onlinedown.net/soft/24081.htm

清华紫光 ocr
软件大小: 12345 kb
软件语言: 简体中文
软件类别: 国产软件 / 共享版 / 图像其它
应用平台: win95/98/nt
界面预览: 无
清华紫光 ocr支持windows环境下的gb、big5、jis和shift-jis等多种内码。在印刷体汉字识别中还加入了mmx优化技术,使识别速度得到了很大提高。我们用它识别一页a4大小的印刷体中英文混排的纯文本文件,只用了几秒钟。而且识别率非常高,只有极个别的字出现了差错。在这个版本中新增了表格识别功能。选择了识别表格的选项后,它会自动将表格的框线先识别出来,再对表格中的文字进行识别。文字全部识别出来之后会将文字按原样恢复到表格中。在这项测试中识别率也很不错。但是在测试中我们的工程师发现,当文字与表格的框线距离较近时,它的识别效果就没有那么理想了。如果用户想对一个图文混排的文件进行识别,则清华紫光 ocr还具有版面自动分析功能。它自动对扫描的版面进行分析,把应识别的文字区域划分出来,之后进行识别。对于被划分区域内的文字有很高的识别率,而且速度同样很快。不过遗憾的是,在这个版本中没有提供版面自动恢复的功能,因此如果想把文件恢复成原来的版面,则还需要重新手动排版。它的导出功能可以将带有表格的文当导出成为rtf格式的文件,从而允许用户在word等应用程序中继续进行编辑。它还可以将扫描进来的图像格式转换成tiff、bmp或pcz等格式,具有很大的灵活性。它的批量识别功能可以让用户一次把多页文稿全部扫描之后再进行识别,避免了扫描一页识别一页带来的麻烦。这一版本最多可实现10000页的批量识别。该版本还增加了一项非常实用的功能,就是手写体的识别。有了这一功能,许多以前手写的信件或文件就可以扫描到计算机中,识别出来后用电子文档的方式进行保存了。不过目前的手写体识别功能还不够完全成熟,它对书写有很高的要求,如每个字之间要有一定的间隔,不能有连笔的情况等。尽管如此,手写体识别这一功能还是能够在一定程度上减轻文字录入工作的负担。该ocr还具有自学习功能,当遇到有生僻字时,可以通过键盘输入进行学习。有了这一功能,用户就可以自由地添加一些本来不“认识”的字,大大拓宽了中文ocr系统的识别字符集。清华紫光这一款专业版的ocr软件,不仅可以对纯文本文件进行识别,而且可以进行复杂的图文混排和图表文档的识别,最大限度地把人们从繁杂的文字再录入的工作中解脱出来。
http://www.skycn.com/soft/6564.html

这样就可以把图象的字准确快速的抓取下来了
您已连续签到 0 天,当前积分:0
  • 第1天
    积分+10
  • 第2天
    积分+10
  • 第3天
    积分+10
  • 第4天
    积分+10
  • 第5天
    积分+10
  • 第6天
    积分+10
  • 第7天

    连续签到7天

    获得积分+10

获得10积分

明天签到可得10积分

咨询客服

扫描二维码,添加客服微信