2022-11-25 11:41:01
如何把电子书pdf文转化为txt格式??
将pdf文件转换为txt文件
作者:不详 来源:不详
pdf是电子图书常用的文件格式,但是由于pdf文件不便阅读(需要安装acrobat才能看),而且少则几百k,多则十来兆,不便网上传输,我们常常希望能把它转化成文本文件格式,却又往往无从下手。其实,这并不是一件难事。
首先,我要向大家介绍一个能将pdf文件转成txt文件的软件――aerial2.0。(not compatible with acrobat 5).
我们知道,阅读pdf文件的工具,当属adobe的acrobat reader软件了,而aerial则是acrobat的一个插件。在安装了aerial之后,acrobat reader的菜单中的"plug-ins"就会多出一项"aerial"。
aerial 2.0为我们浏览pdf文件提供了强大的功能:
1.index manager:用于查找和管理文章的索引(必须要有acrobat exchange);
2.navigator: 为pdf文件建立树结构,方便我们浏览;
3.paper clip page:剪贴页管理(必须要有acrobat exchange);
4.copy table to clipboard:将表格复制到剪贴板;
5.save as rtf :这才是我们最需要的功能,转化之后不仅保留了文字,连字体和颜色图案都能保留下来!
但是,aerial并不是万能的,它对中文支持不太好,排版有时会比较混乱,而且遇上扫描的纯图形的pdf文件时就无能为力了。要想把此类pdf文件转化成文本文件,就相对麻烦一些了,具体步骤如下:
1.先用acrobat打开pdf文件,选定区域,放大到300% 500%(视具体情况而定), 复制到剪贴板。
2.用photoshop或photoimpact等图形软件调出剪贴板的图形,存成单色的(注意:一定要单色)tif、pcx或bmp文件,图形文件格式视你所用的ocr软件而定。笔者推荐使用bmp文件存盘。
3.用ocr软件识别图形文件(笔者用的是wtocr7.0),经过简单的排版校正后,一般能有95%以上的识别率。再经过你的手工修改后,就可以了。
以上是笔者在实际过程中的一些经验,希望能对朋友们有所启发。aerial 可以到
http://www.china139.com/soft/28-1.asp
下载。或者点此下载。
想把pdf文件转换成文本方式的工具也很多。比如在acrobat 5.0中,我们可以快速地将adobe pdf文件另存为rtf文件,或者tiff、jpeg、png格式的图像文件。acrobat可将adobe pdf文件的每个页面转换成单个的图像文件,图像格式视所选而定;利用pdf2htm也可以将pdf文件变为html文件,而且完全支持中英文pdf文档的转换,对pdf的版面信息可以完全保留,生成html的效果基本与原版的pdf一致,简单排版后即可输出。如果你对其中的插图不感兴趣,还可以用pdf2txt。下面我们一起来看看下pdf2htm和pdf2txt的用法。
★pdf2htm★
从
http://www.pdfimage.com/pdf_ps/pdf2htm/pdf2htm2.0.zip
处下载的pdf2htm文件不过106kb,其中包括一个文本文件readme.txt和一个程序文件pdf2htm.exe。这是一个基于dos环境的程序文件,由魔镜软件工作室独立开发。
它的用法很简单。进入msdos方式,转到程序所在目录,假设要转换的pdf文件也在同一目录,文件名为demo.pdf,在dos命令提示符下输入“pdf2htm demo.pdf”即可。再dir一下或者回到windows资源管理器下看看,增加了些什么文件?
★pdf2txt★
从ftp://ftp1.mydown.com/home2/soft33/pdf2txtv2.0.zip处下载的pdf2txtv2.0.zip是508kb,内含两个文件:gzip.dll和pdf2txt.exe。我们只需把它们解压到同一目录即可。
运行pdf2txt.exe,单击“file”下的“pdf2txt”,弹出打开文件对话框,如图1。选择一个欲转换的pdf文件,单击“打开”,随后弹出一“另存为”对话框,设定文本文件保存的位置。单击“保存”。ok!快到你所设定的位置上去看看吧。是不是很令人心动?
当然,如果你已经安装了adobe acrobat reader,你就可以用它来转换pdf文件了。
以上给大家详细介绍了获取各种帮助文档的源文件(文本文件和其中的插图)的工具和用法。利用这些源文件,我们就可以实现本篇开头所提出来的目标――既不买书,又可以免去了眼睛的“奔波劳顿”(看屏幕要左右来回移动)之苦。把帮助文档的源文件用打印机打出来,自己制作的一本参考书不就到手了吗?呵呵!
参考资料:
http://www.xici.net/it/digital/electric/b334122/d26337706.htm
是不是有什么软件可以把pdf 文件转为word文档的 - ...
1、reader7.0即可
专用软件:pdf2word1.3中文破解版
2、office2003实现pdf文件转word文档
经过尝试,发现可以利用 office 2003 中的 microsoft office document imaging 组件来实现
pdf转word文档,也就是说利用word来完成该任务。方法如下:
用adobe reader 打开想转换的pdf文件 ,接下来 选择 “文件→打印”菜单,在打开的“打印”窗口中将 “打印机”栏中的名称设置为 “microsoft office document image writer”,确认后将该pdf文 件输出为 mdi格式的虚拟打印文件 。
注: 如果没有找到“microsoft office document image writer”项,使用office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“office 工具 microsoft draw转换器”。
然后, 运行 “microsoft office document imaging”,并利用它来 打开 刚才保存的mdi文件,选择“工具→ 将文本发送到word ”菜单,在弹出的窗口中选中“ 在输出时保持图片版式不变 ”,确认后系统会提示“必须在执行此操作前重新运行 ocr 。这可能需要一些时间”,不管它, 确认 即可。
注: 对pdf转doc的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。
以上仅在 word2003 中可用,其他版本没有microsoft office document image writer。
怎么把pdf格式的文件转换为word格式?
先把pdf转化为word格式需要两步:
第一步,先把pdf转化为文本格式,方法是打开pdf文件,点击菜单文件,另存为文本模式即可。
第二步,然后在粘贴到word里面!
这样做的只能够是简单的,转化,成功率很低!因为一部分的pdf文件加过密的,是无法修改的!如果pdf上的选取文字工具可以用的话一般就可以,但是成功率极低!
还有一种方法就是通过别的阅读程序打开推荐超星的阅读器,然后选择文字识别的工具即可!但是这样做少量的还可以,大量的都不行了!
还有一种就是,ocr技术识别,但是成功率低,识别出的错误率较高!个人认为!
求一个高质量的转换成pdf文档的软件
word to pdf 6.0 build 102608
word to pdf 是一个易用和功能强大pdf转换器,它能转换word to pdf(doc), word to pdf(rtf),word to pdf converter, html to pdf(html,htm), xml to pdf(xml), text to pdf(txt), css to pdf(css), png to pdf, jpg to pdf, jpeg to pdf, bmp to pdf, gif to pdf
下载地址:
http://www.onlinedown.net/soft/65848.htm