开通会员
  • 尊享所有功能
  • 文件大小最高200M
  • 文件无水印
  • 尊贵VIP身份
  • VIP专属服务
  • 历史记录保存30天云存储
开通会员
您的位置:首页 > 帮助中心 > pdf转word加页码-超星文字识别错误
默认会员免费送
帮助中心 >

pdf转word加页码-超星文字识别错误

2022-12-12 01:26:22

超星文字识别错误

超星文字识别错误
请参阅
明白了吗?看完就知道了!看最下面!
说句实在话,现在的这些文字识别软件像什么方正啊,汉王啊都不怎么样,何况office2003中自带了ocr软件啊
在绿盟上有篇这样的文章

各种格式文件ocr成word文件的方法

你还在为不同格式的文件怎么变成word文件发愁吗?各种识别软件各有缺陷,识别效率低,让你痛苦不堪,有的只能识别字,对表格和图形无能为力,识别完了,版面乱七八糟,无法使用。现在好了,本文针对各种情况下文字识别进行总结,帮助大家掌握正确方法,节省时间,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案:

1、pdf文件的识别:

1)文件可以直接识别的(以文本形式保存的pdf文件):安装acrobat 7专业版,注意不是acrobat reader(下载 http://www.xdowns.com/soft/4/136/2006/soft_29430.html ),直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到word等中。

2)文件不能直接识别的(以图片形式保存的pdf文件):安装office2003(下载 http://www.xdowns.com/soft/188/215/2006/soft_28356.html ),并装上office工具microsoft office document imaging(完全安装此工具),然后在打印机里面会增加microsoft office document image writer打印机,然后将pdf文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个mdi文件,并且自动用microsoft office document image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个pdf文件识别输出到word文件中。

注意:microsoft office document image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到word中。(所有的识别软件都不能很好的处理图形的识别问题,microsoft office document image的这种处理方法已经是非常好的解决这个问题了。)

3)加密的pdf文件:先下载解密软件(下载 http://www.xdowns.com/soft/4/85/2006/soft_29750.html ),解密后在参看1),2)
4)繁体pdf文件:用2)的方法识别到word后,用word中的“工具”--“语言”---“中文繁简转换”

2、caj文件的识别:

1)局部文字识别:直接使用caj浏览器(下载地址 http://www.xdowns.com/soft/4/136/2006/soft_29737.html )的ocr
2)全文件识别:打印到microsoft office document image writer打印机,后面和上面的2)操作一样
3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj浏览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用2)全部转化为word。

3、超星文件的识别:

1)局部文字识别:直接使用超星浏览器(下载地址 http://www.xdowns.com/soft/31/91/2006/soft_27810.html )的ocr
2)全文件识别:打印到microsoft office document image writer打印机,后面和上面的2)操作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到word中,在合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。注意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看到轻松的生成全本书的word版本时,你会欣喜若狂的,呵呵。我的试验结果是一本280页的书,识别需要几分钟的时间。

3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后在用1、的方法转成word

4、其他情况下的识别:

使用snagit软件(下载 http://www.xdowns.com/soft/31/46/2006/soft_29690.html )将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft office document image打开图形,其他和2)一样。

注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和word结合不紧),这些软件包括:紫光ocr,万方pdfocr,尚书,汉王,scansoft pdf converter,pdf2word,以及各种被推荐的软件等等,我都装过,现在都像lj一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。

针对一些问题的补充:
经过一些试验,发现microsoft office document image 存在一些不稳定的问题,例如在用caj打印到microsoft office document image writer打印机时,发现用caj5.5版本比较快,(caj5.5不能加升级补丁),而caj5.0有时出现假死机。
另外页面显示大时,转化的识别率较高。
如果页数多的文件,包括超星,如果有问题,可以分多次转化。

再次补充:
1、由于虚拟打印到microsoft office document image writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60m,因此会严重影响机器的运行速度和c盘空间以及内存空间,建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则你的c盘很快会被用光。

2、建议如果发生打印到microsoft office document image writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比microsoft office document image writer快,然后在snagit中,选择打印机为microsoft office document image writer打印机,(相当于再打印到microsoft office document image writer打印机),然后选择snagit---outputs下的printer,然后选择snagit----file----finish output,即可生成msi文件,其他一样。转化完成后请删除c:\windows\systems32\snagit临时文件。

...只能用超星阅览器阅读,能否转换成可以修改的word...

...只能用超星阅览器阅读,能否转换成可以修改的word...
这你就问对人了,我可是亲身实践过的。不过要先转成pdf,再转word就简单了。

方法1:

安装pdf虚拟打印机(fineprint pdf factory或者安装pdf虚拟打印机),在超星浏览器里用打印功能打印需转换的书籍(可以打印单一页,也可打印多页,可以设置),点击 确定 后会出现一个 打印机 的选择界面,选择 pdf虚拟打印机 ,然后会出现一个 pdf虚拟打印机 打印完成的界面(时间长短视打印页数而定),点击 保存 并给新文件起名,就转为pdf的了。

方法2:

装一个acrobate professional 7.0,装完以后,控制面板打印机选项会多出来一个打印机,叫adobe pdf,给它改个名字,改成adobe padf,设为默认打印机。

打开一本书,在图书命令项选择“打印”,填进去页数。
一般要分两次甚至几次打,顺利的就两次。先计算一下正文以前所有页的页数,包括封面、前言、目录等等。计算办法:先看一下整个超星文件属性,里面有个页数,用这个数目减去正文页数,再减去1或2页(超星书里一般有一两个不是pdg的文件,叫bookinfo什么的),就是第一次打印的页数,填进打印选项,给打印文件指定一个路径。开始打印,就会打出一个pdf文件。

下来打正文,把正文页数填进去。再打印出一个pdf文件。

然后用professional把两个文件合成一个(这个你会吧?)

这算顺利的,前提是你下的书没有加密页页没有坏页,如果有,就麻烦了,就会卡住,一般是在正文部分,卡住就打不出来了。这时不要急,打印的时候有一个页面显示,提示已经打了多少页了,打不出来的时候你看看大致在多少页卡住了,然后关掉超星。进去原超星书文件,在大概出问题的地方前后找一找,找到卡住的页的页码。打个比方吧,打正文的时候发现在167页卡住了,就的重新打,把页数填成166。然后从168页开始打后面的。如果卡住的地方太多了,除非是特别难找到的书,我不耐烦了就会放弃,把书删掉,以后再下载,因为可能是下载的时候网速太慢导致有些页坏了,再下一次就不会有那么多坏页了。但是如果是加密页,再下一次也还是那样,那就没有办法了,只有耐着性子来。如果是特别好的书有些页没打出来,把缺的页码记下来,说不定以后能找到。

3.转为pdf之后在acrobat 7.0 里面选择另存为文本就可以是word了。

先说这些,你好好琢磨,有问题再问我,一定保证给你弄出来。
您已连续签到 0 天,当前积分:0
  • 第1天
    积分+10
  • 第2天
    积分+10
  • 第3天
    积分+10
  • 第4天
    积分+10
  • 第5天
    积分+10
  • 第6天
    积分+10
  • 第7天

    连续签到7天

    获得积分+10

获得10积分

明天签到可得10积分

咨询客服

扫描二维码,添加客服微信