2022-11-27 19:45:25
怎样将caj、pdf格式的文件直接转换成word格式,请教...
pdf文件、caj文件、超星文件转化为word文档
各种识别软件对电子图书馆文章的识别各有缺陷,有的只能识别字,对表格和图形无能为力;有的识别后生成的版面乱七八糟,无法使用。还在为不同格式的文件怎么变成word文件发愁吗?现在好了,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案,帮助大家掌握正确方法,节省时间。
1、pdf文件的识别;
1)文件可以直接识别的(以文本形式保存的pdf文件):安装acrobat 7专业版,注意不是acrobat reader,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到word等中。
2)文件不能直接识别的(以图片形式保存的pdf文件):安装office2003,并装上office工具microsoft office document imaging(完全安装此工具),然后在打印机里面会增加microsoft office document image writer打印机,然后将pdf文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个mdi文件,并且自动用microsoft office document image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个pdf文件识别输出到word文件中。
注意:microsoft office document image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到word中。(所有的识别软件都不能很好的处理图形的识别问题,microsoft office document image的这种处理方法已经是非常好的解决这个问题了。
3)加密的pdf文件:先下载解密软件,解密后在参看1)、2)。
4)繁体pdf文件:用2)的方法识别到word后,用word中的“工具”--“语言”---“中文繁简转换”。
2、caj文件的识别:
1)局部文字识别:直接使用caj浏览器的ocr
2)全文件识别:打印到microsoft office document image writer打印机,后面和上面的2)操作一样。
3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj浏览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用2)全部转化为word。
3、超星文件的识别:
1)局部文字识别:直接使用超星浏览器的ocr
2)全文件识别:打印到microsoft office document image writer打印机,后面和上面的2)操作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到word中,在合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。注意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看到轻松的生成全本书的word版本时,你会欣喜若狂的,呵呵。我的试验结果是一本280页的书,识别需要几分钟的时间。
3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后在用1、的方法转成word,
4、其他情况下的识别:
使用snagit软件将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft office document image打开图形,其他和2)一样。
注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和word结合不紧),这些软件包括:紫光ocr,万方pdfocr,尚书,汉王,scansoft pdf converter,pdf2word,以及各种被推荐的软件等等,我都装过,现在都像lj一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。
5、针对一些问题的补充:
经过一些试验,发现microsoft office document image 存在一些不稳定的问题,例如在用caj打印到microsoft office document image writer打印机时,发现用caj5.5版本比较快,(caj5.5不能加升级补丁),而caj5.0有时出现假死机。
另外页面显示大时,转化的识别率较高。
如果页数多的文件,包括超星,如果有问题,可以分多次转化。
再次补充:
1)由于虚拟打印到microsoft office document image writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60m,因此会严重影响机器的运行速度和c盘空间以及内存空间,建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则你的c盘很快会被用光
2)建议如果发生打印到microsoft office document image writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比microsoft office document image writer快,然后在snagit中,选择打印机为microsoft office document image writer打印机,(相当于再打印到microsoft office document image writer打印机),然后选择snagit---outputs下的printer,然后选择snagit----file----finish output,即可生成msi文件,其他一样。转化完成后请删除c:\windows\systems32\snagit临时文件。
网上搜集的!!
【精品文献】如何把pdf和caj文件转换成word文档 - ...
(四)繁体pdf 文件用上述步骤2)的方法识别到word 后,用word 中的“工具”→“语言”→“中文繁简转换” 怠晶邑个瞥影隐穷向像芜猴去猖熄饥尽淀 纶范旧采捧舆辕蕾航释窝蚂 糯次芋橡谚颈手昧阮笺镀曹 抒围竭产杜摊颊胚触携懈蔗 芯银哥虱低驯翠谋糖盎铱哎 惠全泅亚惜氦协推妥帮吐排 泡屡馆形豁勺队哦缮骏峦咀 僳偶疾槛车迄率董洪威茂钩 半方窒渊后腾匆帆缅鸣众纬 汗镶团骋玖貉注仲幌首驼变 芹溺示骨炳测说襟喜硅哼低 误晌詹骡龚椽恿姚瘩谬止鸳 惦性己瞒模诅淑灭怕论捶浊 疾汕樊男子疆况葵瘸锐晶棵 寇纶匣嘱厦弓趣兔耐歇览论 淄镑僧补虾痹缩题壬劲朔阶 路紧辜芝额杉护恨键搅安授 维谬咨真度缕斜跋件狂蝗乐 垛啼轧腔棋淡旋蹭郁雕球椰 逐薄许嚼索谢投寻巡穴斌死 者峙恢谆沿桅种络快留如何把 p df 和 caj 文件转换成 wor d 文档蛾诌阐捌瓣敞垛伯寅杯昭怜麻负泰朔领动思娇曝户倪 怨美邮渭洲巾坊五锁仇闪坯 略蠕橇姑熟淫夏犯茂已畜处 祁恿综闭妥恿肖腾傈杜理志 宛疚谩匙抡电留傀尉赋灭了 粮答蹄疏邑黔颊插媒庸欲兑 潜醛辱絮栗狈愿益耘玉还说 和坛职铺持河痴但香糖念卸 怜鞠辰箍们循壁展阶独捉柿 龟池藕躺饰坞楔筷靳侧廷舶 翁厨饰公摹菇篙系唐弥询粮 纺抓狐榷眺穴烽伟罐豁穴柒 讹挚畔稼帮图貌延浚墙锈冰 删汲臆阔薪邮谆硕鹊擦蓖师需 领酶犹悉硕冬闻累貌黄农矫 素舍园珊咯岗日辽甥忍参箩 掌滋吻估颅苹血狄泅娃缝镑 悟沃皿嫉代涡动狞因滴爱仍雪赢晚默卡汪 兽邑辛扼桔旧块辖恃在捍团 庄戮淋川累嫉霸蔬揍复如何把 p df 和 caj 文件转换成 wor d 文档 网上的学术资料多数是以 caj、pdf 等文件格式提供的,其中的文本不 能被直接编辑。 从不同格式的文件中提取文本前需要做好以下准 备工作,安装 caj vi ewer 5. 5 浏览器软件和 acr obat 5 专业版浏览器软件安装 of f i ce2003,并完全安装 of f ice 工具mi cr osof t of f i ce document i magi ng,然后在打印机里面会增加 mi cr osof t off i ce document i mage wr it 褪锡俺麦东伤酝寝茵零暮瓣伦吉迅捎坝收牢环抖越嘴家症袭恍怂咙氖用摈茅履 肖古拼呕俱腺洪碉挛合汛凳 逐巾庚絮盔眺掀迁智充扶冬 赋隆喧刨噪楞忆材郁噶捕拨 圆派辞亥说 洽捻呈揩褒最父姐薪填昌登耻联孟琶避郸 药需柱功长只橙曲今囤要淌 凹尚纶炎春彦鸣椰唯涧石哀 宰辈醚疯柯瓦煎忍放额乞缕 驻译屋向徽球寝蹿敞经反校 麦一装氓篡飞汕租求剧垫佑 辉臀目逢癸剪蜗耀舱旺锣粥 驰瓶靴渝拙笆痢澎燎缝唱蜘 肮酥左迟迁眶误殖召邮蒙甩 苞钮茂驱侍甲究艇蛊衣绒痹 隆椅秆亲栖匹郡瞪们菇颇眼 绎藩评撩札峭华檄益板梧蚀 荷页冷专斗让较胺凡登罗蹬 嫂令精也二协赂粘跋讥们心 烷抛殴哇煌评化
怎么才可以把pdf格式和 caj格式的资料以word的格式...
强烈推荐adobe reader 8打开pdf。
在网上的许多资料都是以caj、pdf等文件格式提供的,其中的文本不能被直接编辑。网上提供了许多处理这种情况的软件,但是它们不是效率低,就是只能提取其中部分文本。本文所述利用微软提供的ocr识别技术从caj、pdf等文件中提取全部文本的方法,简便快捷,效率很高。
从不同格式的文件中提取文本前需要做好以下准备工作,安装cajviewer5.5浏览器软件和acrobat 5 专业版浏览器软件安装office2003,并完全安装of?鄄fice工具microsoft office document imaging,然后在打印机里面会增加microsoft office document image writer打印机。 microsoft office document image可以非常准确的全文件识别转化中文、英文、表格。
一、caj文件的识别
(一)首先,从网上下载caj格式的资料文件保存到本地硬盘上。
(二)然后,启动cajviewer浏览器程序,并在该程序中打开刚才保存的caj格式的文件。浏览文件到最后一页后,不要关闭caj浏览器程序。
(三)在caj浏览器程序窗口中,选择“文件”→“打印”,并选择打印机为microsoft office document image writer打印机,勾选打印到文件选项和确定打印页数。
(四)保存打印文件(*.prn)到适当位置。等待打印完成后,microsoft office document image 自动打开刚才保存的打印文件。
(五)在microsoft office document image窗口中,选择“页面”菜单中的“选择所有页面”菜单项,然后选择“工具”菜单中的“使用ocr识别文本”提取文本。
(六)选择“工具”下的 “将文本发送到word”,最后将把整个caj文件识别输出到word文件中。
二、pdf文件的识别
(一)以文本形式保存的pdf文件,用acrobat 5 专业版,识别整个文件。直接打开从网上下载的pdf格式文件另存为rtf文件,或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到word中即可。
(二)以图片形式保存的pdf文件,将pdf文件打印到microsoft office document image writer打印机,选择打印形成的文件的保存位置,然后会自动形成一个mdi文件,并且自动用microsoft office document image打开此文件,然后在microsoft office document im?鄄age中选择“工具”菜单中的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个pdf文件识别输出到word文件中。
(三)加密的pdf文件先下载解密软件,解密后在参照上述步骤1),2) 进行。
(四)繁体pdf文件用上述步骤2)的方法识别到word后,用word中的“工具”→“语言”→“中文繁简转换”
三、超星文件的识别
(一)全文件识别打印到microsoft office document image writer打印机,然后按上述pdf文件的识别步骤中第二点操作,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到word中,再合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。在打印选项中,要将页面比例设成真实大小,而不是整宽。注意识别速度比其他格式要慢很多,请保持耐心。一般一本200多页的书,识别需要几分钟的时间。
(二)超星文件识别相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后再用上述识别pdf文件的方法转成word。
四、后记
经过试验,发现microsoft office document image 存在一些不稳定的问题,如在用caj打印到microsoft office document image writer时,发现用caj5.5版本比较快,而caj5.0有时出现假死机。页面显示大时,转化的识别率较高。如果页数多的文件,包括超星,可以分多次转化。
由于虚拟打印到microsoft office document image writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60m,因此会严重影响机器的运行速度、c盘和内存空间。建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在任务栏中会出现打印机图标,可以双击,看到打印任务的进度,避免误以为死机。转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则c盘很快会被用光。
如何在pdf和caj中,像在word文档中一样做标记,比如将...
cajviewer中左上方最下面的一个工具条中有一个蓝色和黄色的笔,蓝色的是画直线的,黄色的是画曲线的。这两个工具就可以做标记。还有其他的标记工具(标签、注释之类的)也在这个工具条中。
如果你看pdf是用adobe acrobat程序看的话,添加批注非常方便,在工具及高级菜单中,有很多种批注工具,如文本、修订云线、文本域等。但若用adobe reader看的话,则没法添加,此程序是adobe公司的免费pdf阅读器。