开通会员
  • 尊享所有功能
  • 文件大小最高200M
  • 文件无水印
  • 尊贵VIP身份
  • VIP专属服务
  • 历史记录保存30天云存储
开通会员
您的位置:首页 > 帮助中心 > word转pdf 华军-如何将pdf格式文件转换成word格式文件?
帮助中心 >

word转pdf 华军-如何将pdf格式文件转换成word格式文件?

2022-12-07 00:24:31

如何将pdf格式文件转换成word格式文件?

如何将pdf格式文件转换成word格式文件?
1.office组件把pdf转成word:
可以利用office 2003中的microsoft office document imaging组件来实现pdf转word文档,也就是说利用word来完成该任务。方法如下:

用adobe reader打开想转换的pdf文件,接下来选择“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置为“microsoft office document image writer”,确认后将该pdf文件输出为mdi格式的虚拟打印文件。

注:如果没有找到“microsoft office document image writer”项,使用office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“office 工具 microsoft draw转换器”。

然后,运行“microsoft office document imaging”,并利用它来打开刚才保存的mdi文件,选择“工具→将文本发送到word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行ocr。这可能需要一些时间”,不管它,确认即可。

注:对pdf转doc的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。

以上仅在word2003中可用,其他版本没有microsoft office document image writer。

2.利用第三方工具软件:
scansoft pdf converter for microsoft word
下载地址:
http://www.mydown.com/soft/245/245551.html

3.asp.net实现将word转换pdf格式:
一:必备工具

安装必须的工具ms vs.net2003,ms office2003,adobe acrobat 7.0 professional,postscript.exe,gs811w32.exe

ms vs.net2003的安装不说明

ms office2003的安装不说明

adobe acrobat 7.0 professional安装说明

运行setup.exe文件,出现输入序列号,就运行注册机,用鼠标在第一行刷下就可以看见序列号,复制粘贴到adobe acrobat 7.0 professional安装程序对话框,安装到最后出现注册时,点击phone...将安装程序中显示的第二行序列号(第一行是刚才注册机生成的序列号)复制粘贴到注册机的第二行,点击右边的按钮,再用鼠标刷第三行授权号就出来了,将其复制粘贴到安装程序的最后一行,完成安装注册!

postscript.exe默认安装就可以了,它是一个pdf转换时所需要的脚本

gs811w32.exe默认安装就可以,它其实是个pdf虚拟打印机的驱动

二:配置虚拟打印机

进入windows的控制面板,进入打印机,点击"添加打印机"图标.在安装对话框上"按一步",出现选择打印机时,在制造商一栏中选择"generic",在打印机一栏中,选择"ms publisher color printer",然后一路按下一步,知道安装结束.

三:开始写第一个程序(脚本程序)

为什么要使用脚本程序进行转换呢,其实实际测试过程中,使用pdf distiller的对象引用到c#后,转换成功,但整个pdf distiller对象不能释放,第二次再转换时,就发生了错误,故此处使用脚本程序实现转换.这样我们只要在c#的程序中调用脚本程序就可以实现word到pdf的转换。

宿主脚本文件名:convertdoc2pdf.js

脚本文件内容:

var files = wscript.arguments;
var fso = new activexobject("scripting.filesystemobject");
var word = new activexobject("word.application");
var pdf = new activexobject("pdfdistiller.pdfdistiller.1");
word.activeprinter = "ms publisher color printer";

//files(0) 为word文档文件名
//files(1) 为,转换后需要保存的路径
//调用fso.getbasename(files(0))后,为无路径,无扩展名,的文件名
//files.length为文件参数的个数,使用循环可以支持多个word文档的转换

var docfile = files(0);
var psfile = files(1) + fso.getbasename(files(0)) + ".ps";
var pdffile = files(1) + fso.getbasename(files(0)) + ".pdf";
var logfile = files(1) + fso.getbasename(files(0)) + ".log";

try{
var doc = word.documents.open(docfile);
//word文件转成ps文件;
word.printout(false, false, 0, psfile);
doc.close(0);

//ps文件转成pdf文件;
pdf.filetopdf(psfile,pdffile,"");

fso.getfile(psfile).delete();//删除ps脚本文件
fso.getfile(logfile).delete();//删除转换的日志文件

word.quit();
wscript.echo("isuccess");//成功
wscript.quit(0);
}
catch(x)
{
word.quit();
wscript.echo("isfail");//失败
wscript.quit(0);
}

然后测试该脚本程序

启动ms-dos,输入如下命令:

c:\>cscript //nologo c:\convertdoc2pdf.js c:\test.doc c:\

说明:

运行成功后将看到test.pdf文档了

c:\test.doc参数对应的是脚本程序中的files(0)

c:\参数对应的是脚本程序中的files(1)

你可以安照该脚本改写成,支持多个参数,使用for循环,一次转换多个word文档,此处没有使用多个文件转换功能,是考虑到,该段脚本放在c#的线程中执行,这样一来也可以转换多个word文档.

四:使用c#调用convertdoc2pdf.js脚本

新建一个c#的windows应用程序,添加一个按钮button1

添加一个函数,函数名startconvertpdf

public void startconvertpdf()
{
process proc = new process();
proc.startinfo.filename = "cmd.exe";
proc.startinfo.workingdirectory = @"c:\";
proc.startinfo.createnowindow = true;
proc.startinfo.useshellexecute = false;
proc.startinfo.redirectstandardinput = true; //输入重定向

proc.start();
proc.standardinput.writeline(@"cscript //nologo c:\convertdoc2pdf.js c:\test.doc c:\");
proc.standardinput.writeline("exit");
proc.waitforexit();
}

然后在按钮的click事件中添加调用线程的代码

private void button1_click(object sender, system.eventargs e)
{
//定义线程序
thread thconvert = new thread(new threadstart(startconvertdata));
thconvert.start();
}

注意:在测试上面的c#程序时,必须添加如下命名空间

using system.diagnostics;
using system.threading;

五:健壮的c#调用代码(实际考虑,可放在b/s系统中)

完成第4步的c#测试后,细心的读者,可能看到一点问题,那就是如何得到脚本运行后输出的结果,如何给线程中调用的startconvertdata方法传递参数

1:传递参数,此话说来也可用一篇教程告诉大家线程中方法如何来传递参数,现在就讲一个方案,此种方案很多,我采用一个类,初始化这个类,然后调用该类的方法作为线程执行的方法

2:得到脚本的输出结果,使用process对象的输出重定向,就是说改变输出方向,使脚本不输出到控制台(ms-dos窗口),而是重定向输出到c#程序中,并采用线程的异步回调方法,显示脚本运行结果。

添加一个新类,类名为topdf

using system;
using system.diagnostics;
using system.componentmodel;
using system.windows.forms;
using system.data;

namespace doc2pdf
{
public class topdf
{
private string strword = "";//此处的word文件不含路径
private string spath = "";
public string sexecresult = "";
public bool bsuccess = false;

public topdf(string sparamword,string sparampath)
{
strword = sparamword;
spath = sparampath;
}

public void startconvertpdf()
{
process proc = new process();
proc.startinfo.filename = "cmd.exe";
proc.startinfo.workingdirectory = spath;
proc.startinfo.createnowindow = true;
proc.startinfo.useshellexecute = false;
proc.startinfo.redirectstandardinput = true;//标准输入重定向
proc.startinfo.redirectstandardoutput = true;//标准输出重定向

proc.start();
proc.standardinput.writeline("cscript //nologo "+spath+"convertdoc2pdf.js "+spath+strword+ " "+spath);
proc.standardinput.writeline("exit");
sexecresult = proc.standardoutput.readtoend();//返回脚本执行的结果
proc.waitforexit();
proc.close();

}

public void endconvertpdf(system.iasyncresult ar)//ar参数必须写,是线程执行完成后的回调函数
{
if(sexecresult.indexof("isuccess")!=-1)bsuccess=true;
else if(sexecresult.indexof("isfail")!=-1)bsuccess=false;
//如果放在b/s系统,你可以在此处写数据库,是成功还是失败,并用一个webservice程序不断检查数据库,此webservice程序不放在该回调用函数中
//如果放在c/s系统,回调函数可以不放在类中,以便在窗体程序中调用结果
}
}
}

改写原来的button1_click事件中的代码

private void button1_click(object sender, system.eventargs e)
{
topdf my2pdf = new topdf("test.doc","c:\\");
threadstart thstartconvert = new threadstart(my2pdf.startconvertpdf); //开始异步调用线程
thstartconvert.begininvoke(new asynccallback(my2pdf.endconvertpdf),null);//设置异步线程的回调函数

//如果需要转换多个word,你可以用循环
//如果是b/s系统,可以将本段代码放在aspx中,并结合客户端的无刷新显示数据的技术,不断访问webservice程序,以确定pdf是否转换成功或失败
}

六:编写更加健壮的c#调用代码(实际考虑,可放在windows的服务程序中)

实际使用时,由于转化pdf时cpu的占用率很高,考虑只在同一时间转换一篇word文档,放弃异步线程的回调函数的使用,考虑一个windows的服务程序。

写一个函数checkdata2convert(),不断的检查没有转换的word文档,并使用循环调用topdf类中执行转换方法startconvertpdf

//以下给出,泛代码,用户按照自己的需求,填写完整即可
//bool bstart为全局变量,控制循环的进入与退出
//例:18:30开始检查并转换,那么18:30时,bstart=true;并启动转换线程
//6:30停止转换线程,bstart=fasle;

private void checkdata2convert()
{
//检查指定目录下的没有转换的word文档,你同样可以检查数据库中记录的没有转换的word文档
string spath = system.threading.thread.getdomain().basedirectory; //当前的路径
while(bstart)
{
int ifilecount = checkword(); //checkword为一个方法,检查当前没有转换的word文档,返回没有转换的文件数,该方法的代码由读者自己编写
for(int i=0;i<ifilecount;i++)
{
string sword = getwordfilename(i) //getwordfilename为一个方法,返回一个不带路径的word文件名,该方法的代码由读者自己编写
//topdf类中的startconvertpdf()方法使用的是不带路径的word文件名
topdf my2pdf = new topdf(sword ,spath);
my2pdf.startconvertpdf();

if(my2pdf.sexecresult.indexof("isuccess")!=-1)
{
//成功,写日志,或回写数据库
}
else if(my2pdf.sexecresult.indexof("isfail")!=-1)
{
//失败,写日志,或回写数据库
}

}

if(!bstart)break;
thread.sleep(1000);
}
}

然后在服务的开始事件中,启动线程

protected override void onstart(string[] args)
{
//可以使用一个开始定时器,检查是否到开始时间,时间一到,就开始执行线程,此处的开始执行线程可以放在开始定时事件中
//可以使用一个结束定时器,检查是否到结束时间,时间一到,就结束线程,结束线程的代码可以放在结束定时事件中
//注意:应该使用组件中的定时器,而不是windows的forms中的定时器
//该定时器的类名为system.timers.timer,千万别搞错,不然执行不会正常的
bstart = true;
thread thconvert = new thread(new threadstart(startconvertdata));
thconvert.start();
}

然后在服务的结束事件中,设置停止线程的标识bstart= false

protected override void onstop()
{
bstart = false;
//为何次处不停止线程呢,因为考虑到,现在线程正在转换word文档,但没有结束,所以只设置停止标识,转换完成后,线程也执行结束了.
}

关于winrar的一些小问题 各位大大进来帮忙哈~! - 百...

关于winrar的一些小问题 各位大大进来帮忙哈~! - 百...
1。去 www.duote.com 下个破解版吧
2.winrar和绿色软件差不多,随你复制到那里都能用
3.常用文件扩展名
cpr corel提供说明书文件
cpt corel 照片-绘画图像
cpx corel presentation exchange压缩图形文件
crd windows cardfile文件
crp corel 提供的运行时介绍文件;visual dbase自定义报表文件
crt 认证文件
csc corel脚本文件
csp pc emcee on_screen图像
css 瀑布式表格文件
cst macromedia director cast文件
csv 逗号分隔的值文件
ct scitex ct位图文件;paint shop pro grapic编辑器文件
ctl 通常用于表示一个包含控件信息的文件;faxwork用它来保持有关每个传真收到或发出的信息
cue microsoft提示牌数据文件
cur windows光标文件
cut dr halo位图文件
cv corel版本的档案文件;microsoft codeview信息屏幕文件
cwk clarisworks数据文件.
cws clarisworks模块
cxt macromedia director受保护的(不可编辑的)投影文件
cxx c++源代码文件
dat 数据文件;wrodperfect合并数据文件;用于一些mpeg格式的文件
db borland的paradox 7表
dbc microsoft visual foxpro数据库容器文件
dbf dbase文件,一种由ashton-tate创建的格式,可以被act!、lipper、foxpro、arago、wordtech、xbase和类似数据库或与数据库有关产品识别;可用数据文件(能被excel 97打开);oracle 8.1.x表格空间文件
dbx databearn图像;microsoft visual foxpro表格文件
dcm dcm模块格式文件
dcr 冲击波文件
dcs 桌面颜色分隔文件
dct microsoft visual foxpro数据库容器
dcu delphi编译单元文件
dcx microsoft visual foxpro数据库容器;基于pcx的传真图像;宏
dc5 datacad绘图文件
ddf btrieve或xtrieve数据定义文件,它包含用于描述btrieve或xtrieve文件的元数据
ddif digital equipment或 compaq格式,用于保存他们图像与字处理文档
def smartwareⅡ数据文件;c++模块定义文件
defi oracle 7 卸载脚本文件
dem 用于表示数字高度模型的usgs基准的文件
der 认证文件
dewf macintosh sound cap/sound edit录音设备格式
dgn macintosh 95 cad绘图文件
dib 设备无关位图
dic 目录
dif 可进行数据互换的电子表格
dig digilink格式;sound designerⅠ音频文件
dir macromediadirector文件
diz 描述文件
dlg c++对话框脚本文件
dll 动态链接库
dls 可下载声音文件
dmd visual dbase数据模块文件
dmf x-trakker音乐模块(mod)文件
doc framemaker或framebuilder文档;word star文档、word perfect文档、microsoft word文档;displaywrite文档
dot microsoft word文档模板
dpl borland delph3压缩库
dpr borland delphi工程头文件
draw acorn的基于对象的矢量图像文件
drv 驱动程序
drw micrografx designer/draw;pro/e绘画文件
dsf micrografx designer vfx文件
dsg doom保存的文件
dsm dynamic studio音乐模块(mod)文件
dsp microsoft developer studio工程文件
dsq corel query(查询)文件
dst 刺绣机图形文件
dsw microsoft developer studio工作区文件
dta word bank(世界银行)的stars数据文件
dtd sgml文档类型定义(dtd)文件
dted 地面高度数字数据(图形的数据格式)文件
dtf symantec q&a相关的数据库数据文件
dtm digitrakker模块文件
dun microsoft拨号网络导出文件
dv 数字视频文件(mime)
dwd diamondware数字化文件
dwg autocad工程图文件;autocad或generic cadd老版本的绘图格式
dxf 可进行互交换的绘图文件格式,二进制的dwg格式的文本表示;数据交换文件
dxr macromedia director受保护(不可编辑)电影文件
d64 commodore的64位模拟磁盘图像文件
eda ensoniq asr磁盘映像
edd 元素定义文档(framemaker+sgml文档)
ede ensoniq eps磁盘映像
edk ensoniq kt磁盘映像
edq ensoniq sq1/sq2/ks32磁盘映像
eds ensoniq sq80磁盘映像
gem gem元文件
gen ventura产生的文本文件
getright getright未完成的下载文件
gfc patton&patton flowcharting 4 flowchart文件
gfi,gfx genigraphics图形链接表示文件
gho norton 克隆磁盘映像
gid windows 95全局索引文件(包括帮助状态)
gif compuserve位图文件
gim,gix genigraphics图形链接介绍文件
gkh ensoniq eps家簇磁盘映像文件
gks gravis grip key文档
gl 动画格式
gna genigraphics图形链接介绍文件
gnt 生成代码,micro focus属性格式里的可执行代码
gnx genigraphics图形链接介绍文件
gra microsoft graph文件
grd 用于远程视景数据产生地图过程的格式文件,通常应用于形成地图工程―chips(copenhagen image processing system)使用这些文件
grf grapher(golden software公司)图形文件
grp 程序管理组
gsm raw gsm 6.10音频流;raw“byte aligned(比特对齐的)” gsm 6.10音频流;us robotics语音调制解调器
gtk graoumftracker(老)音乐模块(mod)文件
gt2 graoumftracker(新)音乐模块(mod)文件
gwx,gwz cenigraphis图形链接介绍文件
gz unix gzip压缩文件
h c程序头文件
hcm ibm hcm配置文件
hcom 声音工具hcom格式
hcr ibm hcd/hcm产品配置文件
hdf 高级计算机应用程序本地中心(ncsa) geospatial hierarchial数据格式文件
hed highedit文档
hel microsoft hellbender格式保存的游戏文件
hex macintosh binhex2.0文件
hgl hp图形语言绘图文件
hh 映射文件,包括一些话题id和在帮助文件系统中话题的映射数字―允许运行中应用程序发送给用户合适的上下文帮助话题
hlp 帮助文件;date cad windows帮助文件
hog lucas arts的dark forces wad文件
hpj visual basic帮助工程
hpp c++程序头文件
hqx macintosh binhex 4.0文件
hst 历史文件
ht hyperterminal(超级终端)
htm,html 超文本文档
htt microsoft超文本模板
htx 扩展html模板
hxm descent2 ham文件扩展
ica citrix文件
icb targa位图文件
icc kodak打印机格式文件
icl 图标库文件
icm 图形颜色匹配配置文件
ico windows图标
idb msdev中间层文件
idd midi设备定义
idf midi设备定义(windows 95需要的文件)
idq internet数据查询文件
idx microsoft foxpro相关数据库索引文件;symantec q&a相关数据库索引文件;microsoft outlook express文件
iff 交换格式文件;amiga ilbm
iges 初始图形交换说明文件
igf 插入系统元文件
iif quickbooks for windows交换文件
ilbm 位图图形文件
ima winimage磁盘映像文件
img gem映像
imz winimage压缩磁盘映像文件
inc 汇编语言或动态服务器包含文件
inf 信息文件
ini 初始化文件;mwave dsp synth的“nwsynth.ini” gms安装;cravis ultrasound bank安装
inp oracle 3.0版或早期版本的表单源代码
inrs inrs远程通信声频
ins installshield安装脚本;x-internet签字文件;ensoniq eps字簇设备;cell/Ⅱmac/pc抽样设备
int 中间代码,当一个源程序经过语法检查后编译产生一个可执行代码
iof findit文档
iqy microsoft internet查询文件
iso 根据isd 9660有关cd-rom文件系统标准列出cd-rom上的文件
isp x-internet签字文件
ist 数字跟踪设备文件
isu installshield卸装脚本
it 脉冲跟踪系统音乐模块(mod)文件
iti 脉冲跟踪系统设备
its 脉冲跟踪系统抽样,internet文档位置
iv open inventor中使用的文件格式
ivd 超过20/20微观数据维数或变量等级文件
ivp 超过20/20的用户子集配置文件
ivt 超过20/20表或集合数据文件
ivx 超过20/20微数据目录文件
iw idlewild屏幕保护程序
iwc install watch文档
j62 ricoh照相机格式
jar java档案文件(一种用于applet和相关文件的压缩文件)
java java源文件
pcd kodak photo-cd映像;p-code编译器测试脚本,由microsoft测试与microsoft visual测试
pce maps eudora邮箱名字的dos文件名
pcl hewlett-packard 打印机控制语言文件(打印机备用位图)
pcm 声音文件格式;oki msm6376 合成芯片 pcm格式
pcp symantec live update pro文件
pcs pics动画文件
pct macintosh pict绘画文件
pcx zsoft pc画笔位图
pdb 3com palmpilot数据库文件
pdd 可以用paint shop pro或其他图像处理软件打开的图形图像
pdf adobe acrobat 可导出文档格式文件(可用web浏览器显示);microsoft系统管理服务器包定义文件;netware打印机定义文件
pdp broderbund的print shop deluxe文件
pdq patton&patton flowercharting pdq lite 文件
pds 摄影图像文件(该文件格式的来源不清楚)
pf aladdin系统对私人文件进行加密的文件
pfa 类型1字体(ascⅡ)
pfb 类型1字体(二进制)
pfc pf组件
pfm 打印机字体尺度
pgd 良好隐私(pretty good privacy,pgp)虚拟磁盘文件
pgl hp绘图仪绘图文件
pgm 可输出灰度图(位图)
pgp 用良好隐私(pgp)算法加密文件
ph 由microsoft帮助文件编译器产生的临时文件
php,php3 包含有php脚本的html网页
phtml 包含有php脚本的html网页;由perl分析解释的html
pic pc画图位图;lotus图片;macintosh pict绘图
pict macintosh pict图形文件
pif 程序信息文件;ibm pif绘图文件
pig lucasarts的dark forces wad文件
pin epic pinball数据文件
pix 内置系统位图
pj mks源完整性文件
pjx,pjt microsoft visual foxpro工程文件
pkg microsoft developer studio应用程序扩展(与dll文件类似)
pkr pgp的公用钥匙环
pl perl程序
plg 由rend386/avril使用的文件格式
pli oracle 7数据描述
plm discorder tracker2模块
pls disorder tracker2抽样文件;mpeg playlist文件(由winamp使用)
plt hpgl绘图仪绘图文件;autocad plot绘图文件;gerber标志制作软件
pm5 pagemaker 5.0文件
pm6 pagemaker 6.0文件
png 可移植的网络图形位图;paint shop pro浏览器目录
pnt,pntg macpaint图形文件
pog descent2 pig文件扩展
pol windows nt策略文件
pop visual dbase上托文件
pot microsoft powerpoint模块
pov 视频射线跟踪器暂留
pp4 picture publisher 4位图
ppa microsoft powerpoint内插器
ppf turtle beach的pinnacle程序文件
ppm 可移植的象素映射位图
ppp parson power publisher;serif pageplus桌面出版缺省输出
pps microsoft powerpoint幻灯片放映
ppt microsoft powerpoint演示文稿
pqi powerquest驱动器图像文件
prc 3com palmpiltt资源(文本或程序)文件
pre lotus freelance演示文稿
prf windows系统文件,macromedia导演设置文件
prg dbase clipper和foxpro程序源文件;wavmaker程序
prj 3d studio(dos)工程文件
prn 打印表格(用空格分隔的文本);datacad windows打印机文件
prp oberson的prospero数据转换产品保存的工程文件
prs harvard graphics for windows演示文件
prt 打印格式化文件;pro/engineer元件文件
prv psimail internet提供者模板文件
prz lotus freelance graphics 97文件
ps postscript格式化文件(postscript打印机可读文件)
psb pinnacle sound bank
psd adobe photoshop位图文件
psi psion a-law声音文件
psm protracker studio模型格式;epic游戏的源数据文件
psp paint shop pro图像文件
pst microsoft outlook个人文件夹文件
ptd pro/engineer表格文件
ptm polytracker音乐模块(mod)文件
pub ventura publisher出版物;microsoft publisher文档
pwd microsoft pocket word文档
pwl windows 95口令列表文件
pwp photoworks图像文件(能被photoworks浏览的一系列文件)
sdx 由sdx压缩的midi抽样转储标准文件
sea 自解压档案(stufflt for macintosh或其他软件使用的文件)
sep 标签图像文件格式(tiff)位图
ses cool edit session文件(普通数据声音编辑器文件)
sf ircam声音文件格式
sf2 emu soundfont v2.0文件;creative labs的soundfont 2.0 bank文件(sound blaster)
sfd soundstage声音文件数据
sfi sound stage声音文件信息
sfr sonic foundry sample资源
sfw seattle电影工程(损坏的jpeg)
sfx rar自解压档案
sgml 标准通用标签语言
shb corel show演示文稿;文档快捷文件
shg 热点位图
shp 3d studio(dos)形状文件;被一些应用程序用于多部分交互三角形模型的3d建模
shs shell scrap文件;据载用于发送“口令盗窃者”
shtml 含有服务器端包括(ssi)的html文件
shw corel show演示文稿
sig 符号文件
sit mac的stuffit档案文件
siz oracle 7配置文件
ska pgp秘钥
skl macromedia导演者资源文件
sl pact的保存布局扩展名
slb autodesk slide库文件格式
sld autodesk slide文件格式
slk symbolic link(sylk)电子表格
sm3 datacad标志文件
smp samplevision格式;ad lib gold抽样文件
snd next声音;mac声音资源;原始的未符号化的pcm数据;akai mpc系列抽样文件
sndr sounder声音文件
sndt sndtool声音文件
sou sb studio Ⅱ声音
spd speech数据文件
spl shockwave flash对象;digitrakker抽样
sppack sppack声音抽样
sprite acorn的位图格式
sqc 结构化查询语言(sqr)普通代码文件
sql informix sql查询;通常被数据库产品用于sql查询(脚本、文本、二进制)的文件扩展名
sqr 结构化查询语言(sqr)程序文件
ssdo1 sas数据集合(unix)
ssd sas数据库(dos)
ssf 可用的电子表格文件
st atari st磁盘映像
stl sterolithography文件
stm .shtml的短后缀形式,含有一个服务端包括(ssi)的html文件;scream tracker v2音乐模块(mod)文件
str 屏幕保护文件
sty ventura publisher风格表
svx amiga 8svx声音;互交换文件格式,8svx/16sv
sw 原始带符号字(16位)数据
swa 在macromedia导演文件(mp3文件)中的shockwave声音文件
swf shockwave flash对象
swp datacad交换文件
sys 系统文件
syw yamaha sy系列波形文件
t64 commodore 64仿真器磁带映像文件
tab guitar表文件
tar 磁带档案
taz unix gzip/tape档案
tbk asymetrix toolbook交互多媒体文件
tcl 用tcl/tk语言编写的脚本
tdb thumbs plus数据库
tddd imagine 和 turbo silver射线跟踪器使用的文件格式
tex 正文文件
tga targa位图
tgz unix gzip/tap档案文件
theme windows 95桌面主题文件
thn graphics workshop for windows速写
tif,tiff 标签图像文件格式(tiff)位图
tig 虎形文件,美国政府用于分发地图
tlb ole类型库
tle 两线元素集合(nasa)
tmp windows临时文件
toc eudora邮箱内容表
tol kodak照片增强器
tos atari 16/32和32/32计算机操作系统文件
tpl cakewalk声音模板文件;datacad模板文件
tpp teleport pro工程
trk kermit脚本文件
trm 终端文件
trn mks源完整性工程用法日志文件
ttf truetype字体文件
ttk corel catalyst translaton tool kit
twf tabworks文件
tww tagwrite模板
tx8 ms-dos文本
txb descent/d2编码概要文件
txt ascⅡ文本格式的声音数据
txw yamaha tx16w波形文件
tz 老的压缩格式文件
t2t sonate cad建模软件文件
ub 原始未符号化的字节(8位)数据
udf windows nt/2000唯一性数据库文件
udw 原始未符号化的双字(32位)数据
ulaw 美国电话格式(ccitt g.711)声音
ult ultra tracker音乐模块(mod)文件
uni mikmod unimod格式化文件
url internet快捷方式文件
use mks源完整性文件
uu,uue uu编码文件
uw 原始未符号化字(16位)数据
uwf ultratracker波形文件
v8 covox 8位声音文件
vap 加注讲演文件
vba vbase文件
vbp microsoft visual basic工程文件
vbw microsoft visual basic工作区文件
vbx microsoft visual basic用户定制控件
vce natural microsystems(nms)未格式化声音文件(由cool edit使用)
vcf 虚拟卡文件(netscape);veri配置文件;为与sense8的wordtoolkit一起使用而定义对象
vct,vcx microsoft foxpro类库
vda targa位图
vi national instruments labview产品的虚拟设备文件
viff khoros visualisation格式
vir norton anti-virus或其他杀毒产品用于标识被病毒感染的文件
viv vivoactive player流视频文件
viz division的dvs/dvise文件
vlb corelventura库
vmf faxworks声音文件
voc creative labs的sound blaster声音文件
vox 用adpcm编码的对话声音文件;natural microsystems(nms)格式化声音文件,talking technology声音文件
vp ventura publisher出版物
vqe,vql yamaha sound-vq定位器文件
vqf yamaha sound-vq文件(可能出现标准)
vrf oracle 7配置文件
vrml 虚拟现实建模语言文件
vsd visio绘画文件(流程图或图解)
vsl 下载列表文件(getright)
vsn windows 9x/nt virusafe版文件,用于保持有关目录中所有信息,当一个文件被访问,其中信息与vsn信息进行比较,以确保它们保持一致
vss visio模板文件
vst targa位图
vsw visio工作区文件
vxd microsoft windows虚拟设备驱动程序
w3l w3launch文件
wab microsoft outlook文件
wad 包含有视频、玩家水平和其他信息的doom游戏的大文件
wal quake 2正文文件
wav windows波形声形
wb1,wb2 quattopro for windows电子表格
wbk microsoft word备份文件
wbl argo webloadⅡ上载文件
wbr crick software的wordbar文件
wbt crick software的wordbar模板
wcm wordperfect宏
wdb microsoft works数据库
wdg war ftp远程守护者文件
web corelxara web文档
wfb turtle beach的wavefont bank(maui/rio/monterey)
wfd turtle beach的wavefont drum集合(maui/rio/monterey)
wfm visual dbase windows表单
wfn 在coreldraw中使用的符号
wfp turtle beach的wavefont程序(maui/ri/monterey)
wgp wild board游戏数据文件
wid ventura宽度表
wil winimage文件
wiz microsoft word向导
wk1 lotus 1-2-3版第1、2版的电子表格
wk3 lotus 1-2-3版第3版的电子表格
wk4 lotus 1-2-3版第4版的电子表格
wks lotus 1-2-3电子表格;microsoft works文档
wld rend386/avril文件
wlf argo webloadⅠ上载文件
wll microsoft word内插器
wmf windows元文件
wow grave composer音乐模块(mod)文件
wp wordperfect文档
wp4 wordperfect 4文档
wp5 wordperfect 5文档
wp6 wordperfect 6文档
wpd wordperfect文档或演示
wpf 可字处理文档
wpg wordperfect图形
wps microsoft works文档
wpt wordperfect模板
wpw novell perfectworks文档
wq1 quattro pro/dos电子表格
wq2 quattro pro/dos第5版电子表格
wr1 lotus symphony
wrg reget文档
wr1 书写器文档
wrk cakewalk音乐声音工程文件
wrl 虚拟现实模型
wrz vrml文件对象
ws1 wordstar for windows 1文档
ws2 wordstar for windows 2文档
ws3 wordstar for windows 3文档
ws4 wordstar for windows 4文档
ws5 wordstar for windows 5文档
ws6 wordstar for windows 6文档
ws7 wordstar for windows 7文档
wsd wordstar 2000文档
wvl wavelet压缩位图
wwl microsoft word内插器文件
x avs图像格式
xar corelxara绘画
xbm mime“xbitmap”图像
xi scream tracker设备抽样文件
xif wang映像文件(windows 95带有的文件)
xla microsoft excel内插器
xlb microsoft excel工具条
xlc microsoft excel图表
xld microsoft excel对话框
xlk microsoft excel备份
xll microsoft excel内插器文件
xlm microsoft excel宏
xls microsoft excel工作单
xlt microsoft excel模板
xlv microsoft excel vba模块
xlw microsoft excel工作簿/工作区
xm fasttracker 2,digital tracker音乐模块(mod)文件
xnk microsoft exchange快捷方式文件
xpm x位图格式
xr1 epic megagames xargon数据文件
xtp xtree数据文件
xwd x windows转储格式
xwf yamaha xg works文件(midi序列)
xy3 xywrite Ⅲ文档
xy4 xywrite Ⅳ文档
xyp xywrite Ⅲ plus文档
xyw xywrite for windows 4.0文档
x16 宏媒体扩展(程序扩展),16位
x32 宏媒体扩展(程序扩展),32位
yal arts& letters剪贴艺术库
ybk microsoft encarta 年鉴
z unix gzip文件
zap windows软件安装配置文件
zip zip文件
zoo 早前版本的压缩文件
000-999 用于为老版本(或备份)文件编号(比如:被安装程序改变的config.sys文件);又可用于为小范围的pc应用程序的多个用户相关数据文件编号
12m lotus 1-2-3 97 smartmaster文件
123 lotus 1-2-3 97文件
2d versacad的2维绘画文件
2gr,3gr 在windows之下的vga图形驱动程序/配置文件
3d versacad的3维绘画文件
3dm 3d nurbs建模器,rhino
3ds 3d studio(dos下)格式文件
386 在386或更高级处理器上使用的文件
4ge informix 4gl编译后代码
4gl informix 4gl源代码
669 composer 669;unix composer音乐模型文件;669磁道模块
#01 及更高的号 为计算机演示而扫描的一系列电影的图片文件编号方法
$$$ os/2用来跟踪档案文件
@@@ 用于安装过程中的屏幕文件和用于microsoft codeview for c这样的应用程序的指导文件。

个人建议:改用7-zip,安装程序体积小,占用内存低,独有的7z压缩格式更是一流。推荐使用。

请问:如果把书上的文字用扫描仪扫到电脑上,文字是否...

请问:如果把书上的文字用扫描仪扫到电脑上,文字是否...
扫描文字,结果以图片格式(.bmp)存入电脑。然后使用orc识别系统进行转换,最终用word进行修改编辑。下面教你如何使用orc:

ocr是英文optical character recognition的缩写,翻译成中文就是通过光学技术对文字进行识别的意思, 是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。现在ocr主要是指文字识别软件,在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和ocr软件一直是分开销售的,专业的ocr软件谠缧┦焙蚵舻帽壬�枰腔挂�蟆k孀派�枰欠直媛实奶嵘��ocr软件也在不断升级,扫描仪厂商现在已把专业的ocr软件搭配自己生产的扫描仪出售。ocr技术的迅速发展与扫描仪的广泛使用是密不可分的,近两年随着扫描仪逐渐普及和ocr技术的日臻完善,ocr己成为绝大多数扫描仪用户的得力助手。

一、ocr技术的发展历程

自20世纪60年代初期出现第一代ocr产品开始,经过30多年的不断发展改进,包括手写体的各种ocr技术的研究取得了令人瞩目的成果,人们对ocr产品的功能要求也从原来的单纯注重识别率,发展到对整个ocr系统的识别速度、用户界面的友好性、操作的简便性、产品的稳定性、适应性、可靠性和易升级性、售前售后服务质量等各方面提出更高的要求。

ibm公司最早开发了ocr产品,1965年在纽约世界博览会上展出了ibm公司的ocr产品――ibml287。当时的这款产品只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。20世纪60年代末,日立公司和富士通公司也分别研制出各自的ocr产品。全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后nec公司也推出了同样的系统。到了1974年,信函的自动分拣率达到92%左右,并且广泛地应用在邮政系统中,发挥着较好的作用。1983年日本东芝公司发布了其识别印刷体日文汉字的ocr系统ocrv595,其识别速度为每秒70~100个汉字,识别率为99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作。

中国在ocr技术方面的研究工作相对起步较晚,在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末开始进行汉字识别的研究。1986年,国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文ocr软件的开发工作。至1989年,清华大学率先推出了国内第一套中文ocr软件--清华文通th-ocr1.0版,至此中文ocr正式从实验室走向了市场。清华ocr印刷体汉字识别软件其后又推出了th-ocr 92高性能实用简/繁体、多字体、多功能印刷汉字识别系统,使印刷体汉字识别技术又取得重大进展。到1994年推出的th-ocr 94高性能汉英混排印刷文本识别系统,则被专家鉴定为“是国内外首次推出的汉英混排印刷文本识别系统,总体上居国际领先水平”。上个世纪90年代中后期,清华大学电子工程系提出并进行了汉字识别综合研究,使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具有代表性的成果是th-ocr 97综合集成汉字识别系统,它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。几年来,除清华文通th-ocr外,其它如尚书sh-ocr等各具风格的ocr软件也相继问世,中文ocr市场稳步扩大,用户遍布世界各地。

可以说目前印刷体ocr的识别技术已经达到较高水平。ocr产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号,发展成为可以自动进行版面分析、表格识别,实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息快速录入工具。对印刷体汉字的识别率达到98%以上,即使对印刷质量较差的文字其识别率也达到95%以上。可识别宋体、黑体、楷体、仿宋体等多种字体的简、繁体,并且可以对多种字体、不同字号混合排版进行识别,对手写体汉字的识别率达到70%以上。特别是我国的汉字ocr技术经过十几年的努力,克服了起步晚、汉字字符集异常庞大等困难,单字的识别速度(指在单位时间内所完成的从特征提取到识别结果输出的字数)可以达到70字/秒以上。由于印刷体ocr汉字识别技术已经比较成熟,所以ocr产品被广泛地应用在新闻、印刷、出版、图书馆、办公自动化等各个行业。

专业型ocr产品多是面向特定的行业,即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等等。这种面向特定行业的专业型ocr系统,格式较为固定,识别的字符集相对较小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点,比如邮件自动分拣系统等。

手写文稿的识别直到1996、1997年才开始有产品问世,而且是作为印刷文稿识别产品的一项附加功能提供的。由于人写字的习惯千差万别,实现自由手写体识别相当困难,所以手写体ocr技术的使用领域是联机手写体识别,即人一边写,计算机一边识别,是一种实时识别方式。

二、ocr的基本原理

简单地说,ocr的基本原理就是通过扫描仪将一份文稿的图像输入给计算机,然后由计算机取出每个文字的图像,并将其转换成汉字的编码。其具体工作过程是,扫描仪将汉字文稿通过电荷耦合器件ccd将文稿的光信号转换为电信号,经过模拟/数字转换器转化为数字信号传输给计算机。计算机接受的是文稿的数字图像,其图像上的汉字可能是印刷汉字,也可能是手写汉字,然后对这些图像中的汉字进行识别。对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,再通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。其中文字识别是ocr的重要技术。

1.ocr识别的两种方式

与其它信息数据一样,在计算机中所有扫描仪捕捉到的图文信息都是用0、1这两个数字来记录和进行识别的,所有信息都只是以0、1保存的一串串点或样本点。ocr识别程序识别页面上的字符信息,主要通过单元模式匹配法和特征提取法两种方式进行字符识别。

单元模式匹配识别法(pattern matching)是将每一个字符与保存有标准字体和字号位图的文件进行不严格的比较。如果应用程序中有一个已保存字符的大数据库,则应用程序会选取合适的字符进行正确的匹配。软件必须使用一些处理技术,找出最相似的匹配,通常是不断试验同一个字符的不同版本来比较。有些软件可以扫描一页文本,并鉴别出定义新字体的每一个字符。有些软件则使用自己的识别技术,尽其所能鉴别页面上的字符,然后将不可识别的字符进行人工选择或直接录入。

特征提取识别法(feature extraction)是将每个字符分解为很多个不同的字符特征,包括斜线、水平线和曲线等。然后,又将这些特征与理解(识别)的字符进行匹配。举个简单的例子,应用程序识别到两条水平横线,它就会“认为”该字符可能是“二”。特征提取法的优点是可以识别多种字体,例如中文书法体就是采用特征提取法实现字符识别的。

多数ocr应用软件都加入了语法智能检查功能,这种功能进一步提高了识别率。它主要通过上下文检查法实现拼写和语法的纠正,在文字识别时,ocr应用程序会做多次的上下文衔接性检查,根据程序中已经存在的词组、固定的用词顺序,对应的检查字符串的用词字。比较高级的应用软件会自动用它“认为”正确的词语替换错误词语,纠正语句意思。

2.文字识别的几个步骤

文字识别包括以下几个步骤:图文输入、预处理、单字识别和后处理等。

(1)图文输入

是指通过输入设备将文档输入到计算机中,也就是实现原稿的数字化。现在用得比较普遍的设备是扫描仪。文档图像的扫描质量是ocr软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数,是保证文字清楚、特征不丢失的关键。此外,文档尽可能地放置端正,以保证预处理检测的倾斜角小,在进行倾斜校正后,文字图像的变形就小。这些简单的操作,会使系统的识别正确率有所提高。反之,由于扫描设置不当,文字的断笔过多可能会分检出半个文字的图像。文字断笔和笔画粘连会造成有些特征丢失,在将其特征与特征库比较时,会使其特征距离加大,识别错误率上升。

(2)预处理

扫描一幅简单的印刷文档的图像,将每一个文字图像分检出来交给识别模块识别,这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作,包括图像净化处理,去掉原始图像中的显见噪声(干扰)。主要任务是测量文档放置的倾斜角,对文档进行版面分析,对选出的文字域进行排版确认,对横、竖排版的文字行进行切分,每一行的文字图像的分离,标点符号的判别等。这一阶段的工作非常重要,处理的效果直接影响到文字识别的准确率。

版面分析是对文本图像的总体分析,是将文档中的所有文字块分检出来,区分出文本段落及排版顺序,以及图像、表格的区域。将各文字块的域界(域在图像中的始点、终点坐标),域内的属性(横、竖排版方式)以及各文字块的连接关系作为一种数据结构,提供给识别模块自动识别。对于文本区域直接进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。

(3)单字识别

单字识别是体现ocr文字识别的核心技术。从扫描文本中分检出的文字图像,由计算机将其图形、图像转变成文字的标准代码,是让计算机“认字”的关键,也就是所谓的识别技术。就像人脑认识文字是因为在人脑中已经保存了文字的各种特征,如文字的结构、文字的笔画等。要想让计算机来识别文字,也需要先将文字的特征等信息储存到计算机里,但要储存什么样的信息及怎样来获取这些信息是一个很复杂的过程,而且要达到非常高的识别率才能符合要求。通常采用的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析。

中国汉字常用的就有几千,识别技术就是特征比较技术,通过和识别特征库的比较,找到特征最相似的字,提取该文字的标准代码,即为识别结果。比较是人们认识事物的一种基本方法,汉字识别也是通过比较找出汉字之间的相同、相似、相异,把握其量和质的关系,以及时间与空间的关系等。对于大字符集的汉字一般采用多级分类,多特征、全方位动态匹配求相似集,以保证分类率高、适应性强、稳定性好;细分类重点在于对相似集求异匹配、加权处理、结构判别,定量、定性分析,以及前后联接词的关系,最后进行判别。汉字识别实质上是比较科学或认知科学在人工智能方面的应用,其关键技术是识别特征库。计算机有了这样的一个特征库,才能完成认字的功能。

在图像文档的版面中,除了有文字、图片,有时还会有表格存在,为了使识别后的表格数字化,需要在版面分析过程中,对表格域进行特殊的处理,它包括对表格线的结构信息的提取,对表格内文字域的分检,完成对表格线和对文字域的识别,并根据表格线的数字化生成不同的文件格式。由于文档中的表格随意性大,格式多样,有封闭式的,也有开放式的,特别是表格中的斜线,给表格分析造成一定的困难。

(4)后处理

后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配,即将单字识别的结果进行分词,与词库中的词组进行比较,以提高系统的识别率,减少误识率。

汉字字符识别是文字识别领域最为困难的问题,它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过95%,为了进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。清华大学在此方面的研究成果突出,已经成为世界上的最具权威的机构之一。目前,清华紫光的全系列扫描仪中都配装了清华ocr千禧版软件,它在识别率、表格识别甚至规范手写体的识别方面,均达到了较高水平。

三、ocr文字识别技巧

在最近几年中,ocr识别技术随着扫描仪的普及得到了飞速的发展,扫描、识别软件的性能不断强大并向智能化不断升级发展。但是要想快速地获取正确的扫描结果,得到高效率的文字录入,必须认真学习有关知识,结合实践经验,摸索出自己的全套解决方案。有时我们在作文字识别工作时识别率非常低,根本达不到软件所说的95%以上,请先不要责怪硬件或软件,其实这是没有掌握好扫描及ocr识别技巧的原因。

下面是文字识别操作中经常用到了一些方法和技巧。

1.分辨率的设置是文字识别的重要前提。一般来讲,扫描仪提供较多的图像信息,识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确率就越高。选择300dpi或400dpi分辨率,适合大部分文档扫描。注意文字原稿的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然会得不偿失。下面是部分典型设置,仅供参考。
(1)1、2、3号字的文章段,推荐使用200dpi。
(2)4、小4、5号字的文章段,推荐使用300dpl
(3)小5、6号字的文章段,推荐使用400dpl
(4)7、8号字的文章段,推荐使用600dpi。

2. 扫描时适当地调整好亮度和对比度值,使扫描文件黑白分明。这对识别率的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。进行识别前,先看看扫描得到的图像中文字质量如何,如果图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,说明亮度值太小了,应该增加亮度值在试试;如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大了,应减小亮度后再试试。

3.选好扫描软件。选一款好的适合自己的ocr软件是作好文字识别工作的基础,一般不要使用扫描仪自带的oem软件,oem的ocr软件的功能少、效果差,有的甚至没有中文识别,经过比较,我认为清华紫光ocr2003专业版和尚书ocr6.0文本自动识别输入系统的识别能力与使用功能更突出一些。再选一个图像软件,ocr软件不是有扫描接口吗?为什么还找图像软件?第一,ocr软件不能识别所有的扫描仪;第二,也是最关键的,利用图像软件的扫描接口扫描出来的图像便于处理;一般选用photoshop。

4.如果要进行的文本是带有格式的,如粗体、斜体、首行缩进等,部分ocr软件识别不出来,会丢失格式或出现乱码。如果必须扫描带有格式的文本,事先要确保使用的识别软件是否支持文字格式的扫描。也可以关闭样式识别系统,使软件集中注意力查找正确的字符,不再顾及字体和字体格式。

怎么把pdf的文章直接复制到英文翻译软件

怎么把pdf的文章直接复制到英文翻译软件
用转化软件solid converter把pdf格式文件转成word格式文件,
再复制到英文翻译软件里就可以了。

华军下载:
http://www.onlinedown.net/soft/37438.htm

奇怪。。。
你把pdf发给我,我试试。
邮箱:157015444@sohu.com

哎不行啊美女,你的pdf好像是用从书上扫描下来的内容作出来的,不是电子格式直接作的,我刚才转化出来的也是图片,而且只有10%。可能你真得手打了...
您已连续签到 0 天,当前积分:0
  • 第1天
    积分+10
  • 第2天
    积分+10
  • 第3天
    积分+10
  • 第4天
    积分+10
  • 第5天
    积分+10
  • 第6天
    积分+10
  • 第7天

    连续签到7天

    获得积分+10

获得10积分

明天签到可得10积分

咨询客服

扫描二维码,添加客服微信