2022-12-02 20:12:19
怎样识别pdf,图片上的文字,然后转到word中
在工作中,我常常在想,要是能把纸上有用的文字快速输入到电脑中,不用打字录入便可以大大提高工作效率该有多好呀!随着科技的发展, 这个问题在不断的解决,例如,现在市场上的扫描仪就带有ocr软件,可以把扫描的文字转换到电脑中进行编辑。但是,对于我们平常人来说,大多数人都是即不想多花钱购买不常用的设备,又不想费力气打字录入,那我就给大家提供一个我刚刚发现的方法吧!现在数码相机很普遍,也很常用,我们就从这里下手吧。
工具准备:
硬件: 电脑一台 数码相机
软件: word2003(其它的版本我没有实验)
dopdf (百度可以搜索下载,是一款免费的pdf制作软件)
cajviewer软件(在百度可以搜索下载,是一款免费的阅读器)
步骤:
1、在电脑中安装 dopdf和cajviewer
2、用数码相机把需要的文字拍下来(相机和照像水平就不多谈了。照片效果越好,可以大大缩小转换文字的误差率)
例如:
3、在word中插入你用数码相机照的书上的文字(打开word――插入菜单――图片――来自文件――选择照片――插入)
4、在word中选择文件菜单――打印――在打印机选项中选择dopdf――确定――点击“浏览”选项――选择文件保存的位置和填写文件名称――保存――确定
5、按照上面的步骤,电脑会自动打开cajviewer软件,若没有自动打开该软件,可以自己打开cajviewer软件,然后在cajviewer中打开刚刚转换的pdf文件。
6、选择cajviewer中的,然后在需要的文字部分拖动鼠标画出虚线。
7、点击发送到word按钮,就可以转换成word文件了。可以编辑了。
第6、7步骤图片如下:
要点提示:
1、照片一定要平整,最好对比强烈。(最最关键的部分)
2、用dopdf生成pdf文件不只一种用法,你也可以选择其它更好、更便捷的方法,这里只提供我本此的实验软件。
3、如果熟练的使用我的方法,用不了一分钟就可以转出若干的文字,大大提高了工作效率。
4、切记:输出的文字一定要校对呀!
pdf文件怎么转换为word?
pdf转word
1. 可检索内容的pdf(内容可以用鼠标选中的非双层pdf)文件
推荐用下面软件转换
1.1 用 anybizsoft pdf converter v2.5 转换
1.2 用 solid converter pdf v6转换,
这两个效果都是蛮好的,特别是solid converter pdf v6 .
2. 对于是图片做成的pdf(特别是扫描件做成的pdf)文件
推荐用下面软件转换
2.1 页数比较少的用 cajviewer 7.0 (带ocr组件完整版) ,支持直接打开pdf文件,识别文字。
2.2 页数比较多的可以用 readiris corporate 12软件来进行识别 (需要安装亚洲语言包,不然不识别中文)
2.3 页数比较多的还可以用 abbyy finereader 9或者9以上版本(有简体中文版)进行识别转换。
这个软件的识别率很高,转换出来的版面基本保持原样,还可以手动人工框选识别,缺点就是识别速度较慢。
上面几个软件的识别率都还可以,不建议用什么office组件识别,太麻烦识别率也不高。
3. 对于一些不允许做修改的pdf文件(就是加密加了权限的pdf),那么就先要去除密码或者去除数字证书,才能照上面两个步骤做~~~
如何将pdf文件转换为word文档?
按照我的顺序来:
①选择“打印”→选择“microsoft office document image writer”→点击“确定”→保存类型为“*.mdi”(一般情况下就这一个)
②在“*.mdi”文档里,选择“工具”→“将文本发送到word(t)”→选择路径→确定。
③这时就是word文档了!
(只建议用于纯文字,不建议用于表格、图像等)
pdf文件如何转化为word文档?
推荐3种方法
1. 安装有office2003的话,可以利用office 2003中的microsoft office document imaging组件来实现pdf转word文档,也就是说利用word来完成该任务。方法如下:
(1). 用adobe reader或其它pdf阅读器打开想转换的pdf文件。
(2). 选择“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置为“microsoft office document image writer”,确认后将该pdf文件输出为mdi格式的虚拟打印文件。
注:如果没有找到“microsoft office document image writer”项,使用office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“office 工具 microsoft draw转换器”。
(3).运行“microsoft office document imaging”,用它来打开刚才保存的mdi文件,选择“工具→将文本发送到word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行ocr。这可能需要一些时间”,不管它,确认即可。
【注】:对pdf转doc的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。
以上仅在word2003中可用,其他版本没有microsoft office document image writer
2. 安装软件anybizsoft-pdf-to-word 他可以帮你把pdf格式文档直接转换为word【doc格式】文档或txt格式的记事本。但对图片上的文字的识别不太好,转换后也需要手动校对。
3. 还可以安装【汉王ocr】 可以提取图片里的文字。
o(∩_∩)o~
怎样将pdf文件转换成word文档
pdf转word
1. 如果不是图片类做成的pdf 你可以尝试用verypdf pdf2word 工具或者使用solid converter pdf 转换 但是如果是内嵌了字体的,那么就要看情况了,因为有的字体你系统里面有,转出来就没有问题,如果系统里面没有,那么转出来就是一堆乱码,那么就先要把这些pdf文件转成位图形式(也就是常说的pdf转曲)然后再用工具转,当然这时候上面的2个工具基本无能为力了
2.对于是图片做成的pdf 那么我们就需要用ocr类软件进行识别了,你可以用比较简单的cajviewer来提取 但是只能是一页页提取文字,或者你可以使用readiris corporate 12软件来进行识别,但是readiris corporate 12呢需要下载支持韩语 日语还有简体中文的亚洲语言包才是识别中文,但是这个软件的ocr识别率是比较好的~~~~当然还有abbyy finereader 也是一款识别率很高的软件,关键还支持中文识别~~也是一款不可多得的ocr软件,这里我强力推荐这个软件。
3. 对于一些不允许做修改的pdf文件(就是加密加了权限的pdf),那么就先要去除密码或者去除数字证书,才能照上面两个步骤做~~~