2022-12-03 04:24:44
复制pdf格式文件里的文字粘贴到word文挡时显示的是...
它们之间的转换最牛逼的方式是先打印出来 再扫描进去。呵呵不扯瞎话了,它们,转换可用下面的工具来实现:
solid converter pdf
应用情景:利用office 2003中的microsoft office document imaging组件来实现
pdf转word文档在一定程度上的确可以实现pdf文档到word文档的转换,但是对于很多“不规则”的pdf文档来说,利用上面的方法转换出来的word文档中常常是乱码一片。为了恢复pdf的原貌,推荐的这种软件可以很好地实现版式的完全保留,无需调整,而且可以调整成需要的样板形式。
使用方法:
1、下载安装文件solid converter pdf,点击安装。
提示:安装前有个下载安装插件的过程,因此需要保证网络连接通畅。
2、运行软件,按工具栏要求选择需要转换的pdf文档,点击右下的“转换”(convert)按扭,选择自己需要的版式,根据提示完成转换。
下载地址:
http://www.skycn.com/soft/20929.html
请问,扩展名为.php.cfg.pdf.rar的文件分别是什么文...
【常见的扩展名】我就略说些经常遇到的,但并不是人人都认识的扩展名:
〔*.exe‖可执行文件;直接打开〕
〔*.rar‖一种压缩包;用winrar打开〕
〔*.zip‖一种压缩包;用winrar打开,或者winxp也可以直接打开〕
〔*.iso‖虚拟光驱;用winrar打开,也可用其他虚拟光驱软件〕
〔*.doc‖word文档;用office word打开〕
〔*.ppt‖幻灯片; 用office powerpiont打开〕
〔*.xls‖电子表格;用office excel打开〕
〔*.wps‖wps文档; 用金山wps打开〕
〔*.txt‖文本文档;默认用记事本打开〕
〔*.lrc‖动态歌词;可以用记事本打开〕
〔*.rm,*.rmvb‖高清视频;可以用realoneplayer打开〕
〔*.mp3,*.wma,*.wav‖一些音乐〕
〔*.jpg,*.bmp,*.gif‖一些图片,其中gif可以是动态的〕
〔*.wfs‖flash文件;可以用ie打开,也可用flashplayer打开〕
〔*.torrent‖bt文件;可以用bitcomet打开〕
a
ace:ace压缩档案格式
act:microsoft office助手文件
aif,aiff:音频互交换文件,silicon graphic and macintosh应用程序的声音格式
ani:windows系统中的动画光标
arc:lh arc的压缩档案文件
arj:robert jung arj压缩包文件
asd:microsoft word的自动保存文件;microsoft高级流媒体格式(microsoft advanced streaming
format,asf)的描述文件;可用nsrex打开 velvet studio例子文件
asf:microsoft高级流媒体格式文件
asm:汇编语言源文件,pro/e装配文件
asp:动态网页文件;procomm plus安装与连接脚本文件;astound介绍文件
ast:astound多媒体文件;clarisworks“助手”文件
axx:arj压缩文件的分包序号文件,用于将一个大文件压至几个小的压缩包中(xx取01-99的数字)
a3l:authorware 3.x库文件
a4l:authorware 4.x库文件
a5l:authorware 5.x库文件
a3m,a4m:authorware macintosh未打包文件
a3w,a4w,a5w:未打包的authorware windows文件
b
bak:备份文件
bas:basic源文件
bat:批处理文件
bin:二进制文件
binhex:苹果的一种编码格式
bmp:windows或os/2位图文件
book:adobe framemaker book文件
box:lotus notes的邮箱文件
bpl:borlard delph 4打包库
bsp:quake图形文件
bun:cakewalk 声音捆绑文件(一种midi程序)
c
c0l:台风波形文件
cab:microsoft压缩档案文件
cad:softdek的drafix cad文件
cam:casio照相机格式
cap:压缩音乐文件格式
cas:逗号分开的ascⅡ文件
ccb:visual basic动态按钮配置文件
cch:corel图表文件
cco:cyberchat数据文件
cct:macromedia director shockwave投影
cda:cd音频轨道
cdf:microsoft频道定义格式文件
cdi:philip的高密盘交互格式
cdm:visual dbase自定义数据模块文件
cdr:coreldraw绘图文件;原始音频cd数据文件
cdt:coreldraw模板
cdx:coreldraw压缩绘图文件;microsoft visual foxpro索引文件
cfg:配置文件
cgi:公共网关接口脚本文件
cgm:计算机图形元文件
ch:os/2配置文件
chk:由windows磁盘碎片整理器或磁盘扫描保存的文件碎片
chm:编译过的html文件
chp:ventura publisher章节文件
chr:字符集(字体文件)
cht:chartviem文件;harvard graphics矢量文件
cif:adaptec cd 创建器 cd映像文件
cil:clip gallery下载包
cim:simcity 2000文件
cin:os/2改变控制文件用于跟踪ini文件中的变化
class:java类文件
clp:windows 剪贴板文件
cll:crick software clicker文件
cls:visual basic类文件
cmd:windows nt,os/2的命令文件;dos cd/m命令文件;dbaseⅡ程序文件
cpi:microsoft ms-dos代码页信息文件
cpl:控制面板扩展名,corel颜色板
cpp:c++代码文件
cpr:corel提供说明书文件
cpt:corel 照片-绘画图像
cst:macromedia director cast文件
cur:windows光标文件
d
dbf:dbase文件,一种由ashton-tate创建的格式,可以被act!、lipper、foxpro、arago、wordtech、xbase和类似数据库或与数据库有关产品识别;可用数据文件(能被excel
97打开);oracle 8.1.x表格空间文件
dbx:databearn图像;microsoft visual foxpro表格文件
dct:microsoft visual foxpro数据库容器
dcu:delphi编译单元文件
dcx:microsoft visual foxpro数据库容器;基于pcx的传真图像;宏
dir:macromediadirector文件
dll:动态链接库
doc:framemaker或framebuilder文档;word star文档、word
perfect文档、microsoft:word文档;displaywrite文档
dot:microsoft word文档模板
dpl:borland delph 3压缩库
drv:驱动程序
drw:micrografx designer/draw;pro/e绘画文件
dsf:micrografx designer vfx文件
dsg:doom保存的文件
dsm:dynamic studio音乐模块(mod)文件
dsp:microsoft developer studio工程文件
dsq:corel query(查询)文件
dst:刺绣机图形文件
dsw:microsoft developer studio工作区文件
dta:world bank(世界银行)的stars数据文件
dtd:sgml文档类型定义(dtd)文件
dted:地面高度数字数据(图形的数据格式)文件
dtf:symantec q&a相关的数据库数据文件
dtm:digitrakker模块文件
dun:microsoft拔号网络导出文件
dv:数字视频文件(mime)
dwg:autocad工程图文件;autocad或generic cadd老版本的绘图格式
dxr:macromedia director受保护(不可编辑)电影文件
e
eda:ensoniq asr磁盘映像
edd:元素定义文档(framemaker+sgml文档)
ede:ensoniq eps磁盘映像
edk:ensoniq kt磁盘映像
edq:ensoniq sq1/sq2/ks32磁盘映像
eds:ensoniq sq80磁盘映像
edv:ensoniq vfx-sd磁盘映像
efa:ensoniq asr文件
efe:ensoniq eps文件
efk:ensoniq kt文件
efq:ensoniq sq1/sq2/ks32文件
efs:ensoniq sq80文件
efv:ensoniq vfx-sd文件
emd:abt扩展模块
emf:windows增强元文件
eml:microsoft outlook express邮件消息(mime rtc822)文件
exe:可执行文件(程序)
f
fav:microsoft outlook导航条
fax:传真类型图像
fcd:虚拟cd-rom
fdf:adobe acrobat表单文档文件
fla:macromedia flash电影
fnd:microsoft explorer保存的搜索文件(find applet)
fon:系统字体
frt:microsoft foxpro报表文件
frx:visual basic表单文本;microsoft foxpro报表文件
fxp:经microsoft foxpro编译的源文件
g
gdm:铃声、口哨声和声音板模块格式
getright:getright未完成的下载文件
gho:norton 克隆磁盘映像
gid:windows 95全局索引文件(包括帮助状态)
gif:compuserve位图文件
gl:动画格式
grp:程序管理组
h
hex:macintosh binhex2.0文件
hlp:帮助文件;date cad windows帮助文件
hpp:c++程序头文件
hqx:macintosh binhex 4.0文件
ht:hyperterminal(超级终端)
htm,html:超文本文档
htt:microsoft超文本模板
htx:扩展html模板
i
ico:windows图标
idx:microsoft foxpro相关数据库索引文件;symantec q&a相关数据库索引文件;microsoft outlook
express文件
img:gem映像
inf:信息文件
ini:初始化文件;mwave dsp synth的“nwsynth.ini” gms安装;cravis ultrasound bank安装
inp:oracle 3.0版或早期版本的表单源代码
inrs:inrs远程通信声频
ins:installshield安装脚本;x-internet签字文件;ensoniq eps字簇设备;cell/Ⅱmac/pc抽样设备
int:中间代码,当一个源程序经过语法检查后编译产生一个可执行代码
iof:findit文档
iqy:microsoft internet查询文件
iso:根据isd 9660有关cd-rom文件系统标准列出cd-rom上的文件
isp:x-internet签字文件
ist:数字跟踪设备文件
isu:installshield卸装脚本
it:脉冲跟踪系统音乐模块(mod)文件
iti:脉冲跟踪系统设备
its:脉冲跟踪系统抽样,internet文档位置
iv:open inventor中使用的文件格式
ivd:超过20/20微观数据维数或变量等级文件
ivp:超过20/20的用户子集配置文件
ivt:超过20/20表或集合数据文件
ivx:超过20/20微数据目录文件
iw:idlewild屏幕保护程序
iwc:install watch文档
j
j62:ricoh照相机格式
jar:java档案文件(一种用于applet和相关文件的压缩文件)
java:java源文件
jar:java档案文件(一种用于applet和相关文件的压缩文件)
java:java源文件
jff,jfif,jif:jpeg文件
jpe,jpeg,jpg:jpeg图形文件
js:javascript源文件
jsp:html网页,其中包含有对一个java servlet的参考
k
kar:卡拉ok midi文件(文本+midi)
l
lab:visual dbase标签文件
lbt,lbx:microsoft foxpro标签文件
ldb:microsoft access加锁文件
lha:lzh更换文件后缀
log:日志文件
lzh:lh arc压缩档案
m
m1v:mpeg相关文件(mime"mpeg"类型)
m3d:corel motion 3d动画文件
m3u:mpeg url(mime声音文件)
mam:microsoft access宏
maq:microsoft access查询文件
mar:microsoft access报表文件
mbx:microsoft outlook保存email格式;eudora邮箱
mcw:microsoft word的macintosh文档
mdb:microsoft access数据库
mdn:microsoft access空数据库模板
mdw:microsoft access工作组文件
mid:midi音乐
mmm:microsoft多媒体电影
mov:quicktime for windows电影
mp2:第二层mpeg音频文件
mp3:第三层mpeg音频文件
mpa:mpeg相关文件,mime“mpeg类型”
mpe,mpeg,mpg:mpeg动画文件
mpp:microsoft工程文件;cad绘图文件格式
mpr:microsoft foxpro菜单(已编译)
msi:windows 安装器包
msn:microsoft 网络文档;descent mission文件
o
obd:microsoft office活页夹
obj:对象文件
obz:microsoft office活页夹向导
ocx:microsoft对象链接与嵌入定制控件
ods:microsoft outlook express邮箱文件
oft:microsoft outlook模板
opx:opl扩展dll(动态链接库)
oss:microsoft office查找文件
ost:microsoft exchange / outlook 离线文件
p
pal:压缩文件
part:go!zilla部分下载文件
pas:pascal源代码
pcs:pics动画文件
pdf:adobe acrobat
可导出文档格式文件(可用web浏览器显示);microsoft系统管理服务器包定义文件;netware打印机定义文件
php,php3:包含有php脚本的html网页
phtml:包含有php脚本的html网页;由perl分析解释的html
pm5:pagemaker 5.0文件
pm6:pagemaker 6.0文件
pps:microsoft powerpoint幻灯片放映
ppt:microsoft powerpoint演示文稿
prf:windows系统文件,macromedia导演设置文件
psd:adobe photoshop位图文件
psm:protracker studio模型格式;epic游戏的源数据文件
pst:microsoft outlook个人文件夹文件
pwl:windows 95口令列表文件
q
qif:quicktime相关图像(mime);quicken导入文件
qt,qtm:quicktime电影
qti,qtif:quicktime相关图像
qtp:quicktime优先文件
qts:mac pict图像文件;quicktime相关图像
qtx:quicktime相关图像
r
ra:realaudio声音文件
ram:realaudio元文件
rar:rar压缩档案(eugene roshall格式)
rec:录音机宏;rapidcomm声音文件
reg:注册表文件
rep:visual dbase报表文件
res:microsoft visual c++资源文件
rm:realaudio视频文件
rmf:rich map格式(3d游戏编辑器使用它来保存图)
rom:基于盒式磁带的家庭游戏仿真器文件(来自atari
2600、colecovision、sega、nintendo等盒式磁带里的rom完全拷贝,在两个仿真器之间不可互修改)
rxx:多卷档案上的rar压缩文件(xx=1~99间的一个数字)
s
sav:游戏保存文件
sb:原始带符号字节(8位)数据
sbk:creative labs的soundfont 1.0 bank文件;(soundb laster)/emu sonndfont v1.x
bank文件
sbl:shockwave flash对象文件
scf:windows explorer命令文件
sch:microsoft schedule+1
scp:拨号网络脚本文件
scr:windows屏幕保护;传真图像;脚本文件
sfx:rar自解压档案
shtml:含有服务器端包括(ssi)的html文件
spl:shockwave flash对象;digitrakker抽样
sql:informix sql查询;通常被数据库产品用于sql查询(脚本、文本、二进制)的文件扩展名
stm:.shtml的短后缀形式,含有一个服务端包括(ssi)的html文件;scream tracker v2音乐模块(mod)文件
str:屏幕保护文件
swa:在macromedia导演文件(mp3文件)中的shockwave声音文件
swf:shockwave flash对象
sys:系统文件
t
t64:commodore 64仿真器磁带映像文件
theme:windows 95桌面主题文件
tif,tiff:标签图像文件格式(tiff)位图
tmp:windows临时文件
trm:终端文件
txt:ascⅡ文本格式的声音数据
tz:老的压缩格式文件
v
vba:vbase文件
vbp:microsoft visual basic工程文件
vbw:microsoft visual basic工作区文件
vbx:microsoft visual basic用户定制控件
vqe,vql:yamaha sound-vq定位器文件
vqf:yamaha sound-vq文件(可能出现标准)
vrf:oracle 7配置文件
vsl:下载列表文件(getright)
w
wab:microsoft outlook文件
wad:包含有视频、玩家水平和其他信息的doom游戏的大文件
wal:quake 2正文文件
wav:windows波形声形
wbk:microsoft word备份文件
wfm:visual dbase windows表单
wfn:在coreldraw中使用的符号
wiz:microsoft word向导
wrl:虚拟现实模型
wwl:microsoft word内插器文件
x
xlk:microsoft excel备份
xll:microsoft excel内插器文件
xlm:microsoft excel宏
xls:microsoft excel工作单
xlt:microsoft excel模板
xlv:microsoft excel vba模块
xlw:microsoft excel工作簿/工作区
z
zap:windows软件安装配置文件
zip:zip文件
如何将扫描的图片文章转换成word文档?
扫描文字,结果以图片格式(.bmp)存入电脑。然后使用orc识别系统进行转换,最终用word进行修改编辑。下面教你如何使用orc:
ocr是英文optical character recognition的缩写,翻译成中文就是通过光学技术对文字进行识别的意思, 是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。现在ocr主要是指文字识别软件,在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和ocr软件一直是分开销售的,专业的ocr软件谠缧┦焙蚵舻帽壬�枰腔挂�蟆k孀派�枰欠直媛实奶嵘��ocr软件也在不断升级,扫描仪厂商现在已把专业的ocr软件搭配自己生产的扫描仪出售。ocr技术的迅速发展与扫描仪的广泛使用是密不可分的,近两年随着扫描仪逐渐普及和ocr技术的日臻完善,ocr己成为绝大多数扫描仪用户的得力助手。
一、ocr技术的发展历程
自20世纪60年代初期出现第一代ocr产品开始,经过30多年的不断发展改进,包括手写体的各种ocr技术的研究取得了令人瞩目的成果,人们对ocr产品的功能要求也从原来的单纯注重识别率,发展到对整个ocr系统的识别速度、用户界面的友好性、操作的简便性、产品的稳定性、适应性、可靠性和易升级性、售前售后服务质量等各方面提出更高的要求。
ibm公司最早开发了ocr产品,1965年在纽约世界博览会上展出了ibm公司的ocr产品――ibml287。当时的这款产品只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。20世纪60年代末,日立公司和富士通公司也分别研制出各自的ocr产品。全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后nec公司也推出了同样的系统。到了1974年,信函的自动分拣率达到92%左右,并且广泛地应用在邮政系统中,发挥着较好的作用。1983年日本东芝公司发布了其识别印刷体日文汉字的ocr系统ocrv595,其识别速度为每秒70~100个汉字,识别率为99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作。
中国在ocr技术方面的研究工作相对起步较晚,在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末开始进行汉字识别的研究。1986年,国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文ocr软件的开发工作。至1989年,清华大学率先推出了国内第一套中文ocr软件--清华文通th-ocr1.0版,至此中文ocr正式从实验室走向了市场。清华ocr印刷体汉字识别软件其后又推出了th-ocr 92高性能实用简/繁体、多字体、多功能印刷汉字识别系统,使印刷体汉字识别技术又取得重大进展。到1994年推出的th-ocr 94高性能汉英混排印刷文本识别系统,则被专家鉴定为“是国内外首次推出的汉英混排印刷文本识别系统,总体上居国际领先水平”。上个世纪90年代中后期,清华大学电子工程系提出并进行了汉字识别综合研究,使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具有代表性的成果是th-ocr 97综合集成汉字识别系统,它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。几年来,除清华文通th-ocr外,其它如尚书sh-ocr等各具风格的ocr软件也相继问世,中文ocr市场稳步扩大,用户遍布世界各地。
可以说目前印刷体ocr的识别技术已经达到较高水平。ocr产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号,发展成为可以自动进行版面分析、表格识别,实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息快速录入工具。对印刷体汉字的识别率达到98%以上,即使对印刷质量较差的文字其识别率也达到95%以上。可识别宋体、黑体、楷体、仿宋体等多种字体的简、繁体,并且可以对多种字体、不同字号混合排版进行识别,对手写体汉字的识别率达到70%以上。特别是我国的汉字ocr技术经过十几年的努力,克服了起步晚、汉字字符集异常庞大等困难,单字的识别速度(指在单位时间内所完成的从特征提取到识别结果输出的字数)可以达到70字/秒以上。由于印刷体ocr汉字识别技术已经比较成熟,所以ocr产品被广泛地应用在新闻、印刷、出版、图书馆、办公自动化等各个行业。
专业型ocr产品多是面向特定的行业,即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等等。这种面向特定行业的专业型ocr系统,格式较为固定,识别的字符集相对较小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点,比如邮件自动分拣系统等。
手写文稿的识别直到1996、1997年才开始有产品问世,而且是作为印刷文稿识别产品的一项附加功能提供的。由于人写字的习惯千差万别,实现自由手写体识别相当困难,所以手写体ocr技术的使用领域是联机手写体识别,即人一边写,计算机一边识别,是一种实时识别方式。
二、ocr的基本原理
简单地说,ocr的基本原理就是通过扫描仪将一份文稿的图像输入给计算机,然后由计算机取出每个文字的图像,并将其转换成汉字的编码。其具体工作过程是,扫描仪将汉字文稿通过电荷耦合器件ccd将文稿的光信号转换为电信号,经过模拟/数字转换器转化为数字信号传输给计算机。计算机接受的是文稿的数字图像,其图像上的汉字可能是印刷汉字,也可能是手写汉字,然后对这些图像中的汉字进行识别。对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,再通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。其中文字识别是ocr的重要技术。
1.ocr识别的两种方式
与其它信息数据一样,在计算机中所有扫描仪捕捉到的图文信息都是用0、1这两个数字来记录和进行识别的,所有信息都只是以0、1保存的一串串点或样本点。ocr识别程序识别页面上的字符信息,主要通过单元模式匹配法和特征提取法两种方式进行字符识别。
单元模式匹配识别法(pattern matching)是将每一个字符与保存有标准字体和字号位图的文件进行不严格的比较。如果应用程序中有一个已保存字符的大数据库,则应用程序会选取合适的字符进行正确的匹配。软件必须使用一些处理技术,找出最相似的匹配,通常是不断试验同一个字符的不同版本来比较。有些软件可以扫描一页文本,并鉴别出定义新字体的每一个字符。有些软件则使用自己的识别技术,尽其所能鉴别页面上的字符,然后将不可识别的字符进行人工选择或直接录入。
特征提取识别法(feature extraction)是将每个字符分解为很多个不同的字符特征,包括斜线、水平线和曲线等。然后,又将这些特征与理解(识别)的字符进行匹配。举个简单的例子,应用程序识别到两条水平横线,它就会“认为”该字符可能是“二”。特征提取法的优点是可以识别多种字体,例如中文书法体就是采用特征提取法实现字符识别的。
多数ocr应用软件都加入了语法智能检查功能,这种功能进一步提高了识别率。它主要通过上下文检查法实现拼写和语法的纠正,在文字识别时,ocr应用程序会做多次的上下文衔接性检查,根据程序中已经存在的词组、固定的用词顺序,对应的检查字符串的用词字。比较高级的应用软件会自动用它“认为”正确的词语替换错误词语,纠正语句意思。
2.文字识别的几个步骤
文字识别包括以下几个步骤:图文输入、预处理、单字识别和后处理等。
(1)图文输入
是指通过输入设备将文档输入到计算机中,也就是实现原稿的数字化。现在用得比较普遍的设备是扫描仪。文档图像的扫描质量是ocr软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数,是保证文字清楚、特征不丢失的关键。此外,文档尽可能地放置端正,以保证预处理检测的倾斜角小,在进行倾斜校正后,文字图像的变形就小。这些简单的操作,会使系统的识别正确率有所提高。反之,由于扫描设置不当,文字的断笔过多可能会分检出半个文字的图像。文字断笔和笔画粘连会造成有些特征丢失,在将其特征与特征库比较时,会使其特征距离加大,识别错误率上升。
(2)预处理
扫描一幅简单的印刷文档的图像,将每一个文字图像分检出来交给识别模块识别,这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作,包括图像净化处理,去掉原始图像中的显见噪声(干扰)。主要任务是测量文档放置的倾斜角,对文档进行版面分析,对选出的文字域进行排版确认,对横、竖排版的文字行进行切分,每一行的文字图像的分离,标点符号的判别等。这一阶段的工作非常重要,处理的效果直接影响到文字识别的准确率。
版面分析是对文本图像的总体分析,是将文档中的所有文字块分检出来,区分出文本段落及排版顺序,以及图像、表格的区域。将各文字块的域界(域在图像中的始点、终点坐标),域内的属性(横、竖排版方式)以及各文字块的连接关系作为一种数据结构,提供给识别模块自动识别。对于文本区域直接进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。
(3)单字识别
单字识别是体现ocr文字识别的核心技术。从扫描文本中分检出的文字图像,由计算机将其图形、图像转变成文字的标准代码,是让计算机“认字”的关键,也就是所谓的识别技术。就像人脑认识文字是因为在人脑中已经保存了文字的各种特征,如文字的结构、文字的笔画等。要想让计算机来识别文字,也需要先将文字的特征等信息储存到计算机里,但要储存什么样的信息及怎样来获取这些信息是一个很复杂的过程,而且要达到非常高的识别率才能符合要求。通常采用的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析。
中国汉字常用的就有几千,识别技术就是特征比较技术,通过和识别特征库的比较,找到特征最相似的字,提取该文字的标准代码,即为识别结果。比较是人们认识事物的一种基本方法,汉字识别也是通过比较找出汉字之间的相同、相似、相异,把握其量和质的关系,以及时间与空间的关系等。对于大字符集的汉字一般采用多级分类,多特征、全方位动态匹配求相似集,以保证分类率高、适应性强、稳定性好;细分类重点在于对相似集求异匹配、加权处理、结构判别,定量、定性分析,以及前后联接词的关系,最后进行判别。汉字识别实质上是比较科学或认知科学在人工智能方面的应用,其关键技术是识别特征库。计算机有了这样的一个特征库,才能完成认字的功能。
在图像文档的版面中,除了有文字、图片,有时还会有表格存在,为了使识别后的表格数字化,需要在版面分析过程中,对表格域进行特殊的处理,它包括对表格线的结构信息的提取,对表格内文字域的分检,完成对表格线和对文字域的识别,并根据表格线的数字化生成不同的文件格式。由于文档中的表格随意性大,格式多样,有封闭式的,也有开放式的,特别是表格中的斜线,给表格分析造成一定的困难。
(4)后处理
后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配,即将单字识别的结果进行分词,与词库中的词组进行比较,以提高系统的识别率,减少误识率。
汉字字符识别是文字识别领域最为困难的问题,它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过95%,为了进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。清华大学在此方面的研究成果突出,已经成为世界上的最具权威的机构之一。目前,清华紫光的全系列扫描仪中都配装了清华ocr千禧版软件,它在识别率、表格识别甚至规范手写体的识别方面,均达到了较高水平。
三、ocr文字识别技巧
在最近几年中,ocr识别技术随着扫描仪的普及得到了飞速的发展,扫描、识别软件的性能不断强大并向智能化不断升级发展。但是要想快速地获取正确的扫描结果,得到高效率的文字录入,必须认真学习有关知识,结合实践经验,摸索出自己的全套解决方案。有时我们在作文字识别工作时识别率非常低,根本达不到软件所说的95%以上,请先不要责怪硬件或软件,其实这是没有掌握好扫描及ocr识别技巧的原因。
下面是文字识别操作中经常用到了一些方法和技巧。
1.分辨率的设置是文字识别的重要前提。一般来讲,扫描仪提供较多的图像信息,识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确率就越高。选择300dpi或400dpi分辨率,适合大部分文档扫描。注意文字原稿的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然会得不偿失。下面是部分典型设置,仅供参考。
(1)1、2、3号字的文章段,推荐使用200dpi。
(2)4、小4、5号字的文章段,推荐使用300dpl
(3)小5、6号字的文章段,推荐使用400dpl
(4)7、8号字的文章段,推荐使用600dpi。
2. 扫描时适当地调整好亮度和对比度值,使扫描文件黑白分明。这对识别率的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。进行识别前,先看看扫描得到的图像中文字质量如何,如果图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,说明亮度值太小了,应该增加亮度值在试试;如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大了,应减小亮度后再试试。
3.选好扫描软件。选一款好的适合自己的ocr软件是作好文字识别工作的基础,一般不要使用扫描仪自带的oem软件,oem的ocr软件的功能少、效果差,有的甚至没有中文识别,经过比较,我认为清华紫光ocr2003专业版和尚书ocr6.0文本自动识别输入系统的识别能力与使用功能更突出一些。再选一个图像软件,ocr软件不是有扫描接口吗?为什么还找图像软件?第一,ocr软件不能识别所有的扫描仪;第二,也是最关键的,利用图像软件的扫描接口扫描出来的图像便于处理;一般选用photoshop。
4.如果要进行的文本是带有格式的,如粗体、斜体、首行缩进等,部分ocr软件识别不出来,会丢失格式或出现乱码。如果必须扫描带有格式的文本,事先要确保使用的识别软件是否支持文字格式的扫描。也可以关闭样式识别系统,使软件集中注意力查找正确的字符,不再顾及字体和字体格式。
参考:
http://zhidao.baidu.com/question/27443880.html?fr=qrl3