2023-01-10 02:12:04
关于超星阅览器格式如何转换成word格式
6月2日 14:54 你的二个问题分别回答如下:
1.提取图片中的文字
方法一:使用你在自定义安装office2003时安装的microsoft office document image writer这个虚拟打印机打印图片,然后选用ocr识别并发送到word即可。
方法二:下载一个“aqua.deskperience v1.3.0.14 注册版”(1.28m的小软件),像抓图一样很方便。
2.
pdf文件的修改编辑
你直接使用adobe acrobat(注意:不是reader)即可。方法如下:
你先用adobe acrobat打开pdf文件,依次点击“工具”―“高级编辑工具”―“touchup文本工具(t)”,然后你用鼠标点击需要编辑的地方,就会出现一个长方形边框,在这个框中你就可以修改了。
揪错 ┆
谁知道有什么软件可以用语音代替打字
语音输入的利器viavoice 8.0
在购买电脑时,得到一款ibm viavoice 8.0专业版软件。久闻大名,忍不住立刻试一把。在windows系统下,长期以来,我们是通过鼠标或键盘向计算机发出各种命令。ibm viavoice使我们改变了传统模式,转而用语音向计算机发出命令、录入汉字、标点符号。真可谓“君子动口不动手”。
创建语音模型
程序安装完成后会自动转入测试并设置麦克风和音频系统。目的是测试机器的语音输入系统,就是说系统需要检测机器的声音i/o设备及识别您的口音以建立针对某一用户的语音模式。这一步非常重要,它关系到今后用户语音输入的准确率。
注意:在创建语音模式时,viavoice会请您选择一篇文章进行朗读,并告诉您这篇文章的语句数、朗读所需要的时间、(分析)处理所需要的时间(如图1)。如果系统认为您的朗读符合要求,则录音成功。接下来是进行语音分析处理或继续朗读。继续朗读可以使系统对更多的数据加以分析,让viavoice尽可能地了解您的语音以保证较高的识别率。
要注意以下问题:
音频设置的问题
1、您必须成功地在音频向导程序的引导下完成设置;
2、viavoice要求声卡的驱动程序是最新的;
3、尽可能用质量好的麦克;
4、确认声卡没有设置如full-duplex或3-d等特殊效果,否则需要关闭。
图1
语音识别率的问题
1、语速要适中,语句要流畅;
2、正确佩戴头戴式麦克风。朗读时不要将海绵套拿走,它可以起过滤作用。将麦克风置于距嘴角大约2厘米的位置。不要改变麦克风拾音头的位置也不要触摸海绵套或拾音头;
3、如果室内有不寻常的背景噪音请等待,直至噪音恢复到平常状态再对文章进行录音。在语音设置时,笔者感到viavoice对声音的输入/输出设备(即麦克和声卡)要求比较严格。
功能简介
viavoice的功能是在称之为“语音中心”的选项下,通过一个下拉式菜单来实现的(如图2)。
图2
1、听写输入
在程序组中,启动“ibm viavoice语音中心”项,激活(打开)麦克风,选择“听写到语音板”或“听写到microsoft word”即可进入语音板或word进行文稿的输入。对于这种输入方法,其实我们最关心的是它的准确率。本文就是用该软件完成的,识别率约85%左右。注意:使用ibm viavoice输入文稿时,要习惯于读出标点符号(如图3)。
图3
2、命令导航
命令导航是viavoice语音系统通过声音来指挥你的计算机工作。例如:“网上冲浪”即启动internet explorer;“回收站”,即打开回收站的窗口等等。实际应用证明:在桌面上用中文命名的程序,更适合该软件的命令导航。
让计算机“听懂”人的语言这确是一件非常有趣的事情。然而,由于汉语中同音字等原因,这个软件还不能彻底解决全部识别的问题。尽管如此,一篇文稿有80%~90%的文字可以用语音输入来完成,解放了双手,也是一件幸事。
要买手机,介绍下
2500元以下智能手机搜罗
摩托罗拉mpx200采用的是omap710处理器工作频率为130mhz,内置32mb的sdram和32mb的rom,其中16mb为flash rom,性能上还算不错。由于该机操作系统采用windows mobile 2003,可以使用的软件非常丰富,例如:internet explorer, pocket outlook, windows media player, microsoft activesync等。支持mp3/wav/wmv/midi/等格式音乐文件和mpeg4视频文件的播放。不仅如此该机内置msn更是在掌握之中实现和朋友的实时交流。
作为一款智能手机,mpx200配备了176×220像素的65536色高清晰tft显示屏,并且显示的画面显示非常的精细。一般手机具备的java midp 2、gprs (class 10)、wap 1.2.1、mms一个都不缺少。
该机的配置为一充一电,数据线,立体声耳机,光盘,说明书。作为一款入门级的智能手机,除了电话功能外,还可以听音乐,上网,玩游戏。
诺基亚欧版n-gage qd
诺基亚n-gage qd配置了4096色的大尺寸tft彩屏,分辨率为176x208像素,铃声24和弦,但是由于支持wav铃声的缘故,可以diy一些个性铃声。qd安装realone、smartmovie等软件可以播放 .rm .avi(全屏播放)等视频文件,内置xhtml浏览器,支持wapv2.0和java2.0,内置蓝牙接口。目前欧版报价:1380元。
n-gage qd配备的双声道耳机能将游戏的效果发挥到极致。而且n-gage qd不单在游戏方面表现出色,打电话,浏览网页,下载基于java的游戏和应用程序,管理你的工作日志,共享个性的铃声,利用蓝牙技术无线传送文件等等,都可以胜任。
n-gage qd采用了symbian操作系统,拥有强大的扩展能力,主机采用了了104mhz的处理器,为游戏提供了足够的动力,拥有3.5mb内存,可以通过mmc卡进行扩充,最大可以支持512mb的mmc卡。qd内置了地狱镇魂歌、金属咆哮ii、传奇世界三款游戏,它们分别是n-gage专用游戏、symbian游戏和java网游的代表作。
当然n-gage qd不可换外壳和缺少摄像功能这两点还是比较遗憾的,但是玩家们也要了解世上是没有完美的东西的。
神达8390
报出1980元的超低价格销售的神达8390,以其超高的性价比的智能手机在市场上着实火了一把,然而短短的时间内,从1980元又降到1880元,现在仅售1799元!
8390采用双屏折叠的机身架构,尺寸、重量略大,机身呈圆弧曲线设计,加上125克的重量,使得手机的握感不错;机身采用烤漆工艺,容易留下指痕和油迹,做工细密,翻盖略有生涩感;键盘得益于宽大的机身,布局合理,间隔适中,不会出现误操作,按键采用有机玻璃,手感不错。
神达8390整合了windows mobile 2003 smartphone专用软件并采用了英特尔的arm pxa262 200mhz的cpu,是典型的“intel+windows”组合,智能手机是手机的重要发展方向之一,神达 8390是一款三频手机,可以完成信息处理和通讯等功能,同时该机也具备一系列最新功能,如彩屏显示、数码相机、视频录制、40合旋铃声并且内置多款游戏。
作为一款智能手机,神达8390可以拥有很多高端应用,在功能上也胜出普通手机很多,mp3铃声、不限时录像(视存储卡大小),很多windows的初级应用都可以支持,例如无线msn功能,outlook进行数据同步等,比较特别的是mio 8390支持“飞行模式”。这种模式下可以彻底的关闭手机的无线通讯功能,即使在飞机上使用手机,也不会对飞机的操控有任何的影响。
西门子欧版sx1
西门子智能手机sx1在欧版机市场相当的火爆,很多朋友都一直想购买。因为其价格也相当诱人,只售2200元。
西门子sx1是一款采用symbian操作系统的智能手机,其cpu为130mhz omap 310,相对与同期推出的6600要快一些。该机的网络和频率是gsm/gprs,900/1800/1900mhz,外型尺寸为109×56×19毫米,重110克。它采用的是65536色的tfd屏幕,分辨率为176×220像素。
在功能方面内置30万像素vga像头,24mb的内存并支持mmc内存扩展,支持wap 2.0,xhtml浏览器进行无线internet/wap浏览,同时可通过蓝牙/红外线/usb/syndml与pc同步数据,通过syndmi技术ota(无线)同步数据,而且通过蓝牙支持多人游戏,并且内置fm调频收音机,支持频段87.5-108mhz,可以设定6个电台,音频范围:20-20000hz,输出功率2×7.5mw,同时还支持mp3。另外中文短信、mms、录音、来电大头贴、名片式通讯录肯定是必不可少了。
多普达535
随着前一阵子多普达535这款手机价格的大幅度下调,这款性价比极高的直板智能手机成为了大家所关注的焦点。目前市场售价:2300元。
535使用了176×220像素6万5千色半反射式tft彩色屏幕,可视面积达2.2寸。五维导航摇杆比较灵敏;扩充卡插槽是采用了一般笔记本电脑扩充槽较为常用的按入方式,在用户将扩充卡插入到一定的幅度时卡会被自动锁紧。在机身背面,有30万象素vga coms摄像头和自拍镜,不但支持640×480分辨率的照片,还可以拍摄高清晰度avi格式的短片,并可以将短片保存到存储卡,至于录像时间则受存储卡内存大小控制。它采用的是微软smartphone 2003简体中文版操作系统,搭配omap 710 132mhz的cpu。其内置有windows media播放器、金山词霸msn、qq等常用软件,所以不论是商务还是娱乐,535都可以完全满足您的需求。
诺基亚欧版6260
目前,智能手机的浪潮正在席卷全球,各大厂商纷纷加入研发智能手机大军,诺基亚凭借symbian os系统,成功的把工作、生活、娱乐结合在了一起,为诺基亚称霸智能手机市场立下了汉马功劳。作为基于symbian os系统,并集折叠、旋影、智能、30万象素摄像头于一身的诺基亚6260,自上市之日起就没有逃脱降价的命运,目前欧版机市场报出2480元的低价!
诺基亚6260仍然秉承着诺基亚一贯的人性化设计风格,操作舒适而方便。这款三频智能手机采用诺基亚series60系列平台和symbian操作系统,支持javatm游戏及应用程序。
大家都知道该机最大特点就是其可以将屏幕进行180度的大范围旋转,虽然现在的市场上已经有很多机型可以作出这种高难度动作,但在当时可是相当抢眼的一个设计。不过相比其他机型的媚俗,该机的旋屏设计完全是为了配合机身侧面的30万像素摄像头。同时也让该机在拍照的时候想一台minidv,就算是现在该机的设计也算前卫了。
series60是最广泛的智能手机操作系统之一,在操作速度、简便性、可扩展性等方面有着其他操作系统不可比拟的优势。丰富的应用程序包括:日程管理、同步邮件、个人理财、电子辞典、导航地图、娱乐游戏等。随机附送的32m多媒体存储卡,给你充足的存储和下载空间,更支持热拔插技术,更换存储卡无需关机。
摩托罗拉欧版e680
手机市场的价格战日益激烈,各商家使出浑身解数。现在欧版的e680再降数百元,现售价仅为2500元。
摩托罗拉e680是一款采用linux嵌入式操作系统的商务智能手机,该机拥有320×240分辨率的65k色tft触摸屏,屏幕尺寸达到了52.00×39.00mm,并且支持手写输入。采用intel xscale 300mhz的高速cpu,保证了系统的执行效率。机身内存达50m并且还支持大容量的sd/mmc储存卡,这样使e680在娱乐方面如虎添翼。自带的real player播放器支持mp3, realaudio, midi, wav, aac, amr格式的音频和realvideo, mpeg4格式的视频文件的播放。另外该机的fm调频收音功能也很实用。这样功能整合在一起,使e680成为当之无愧的娱乐王
nokia6681/80~强烈推荐啊~
nokia没别的~质量是第一~最重要的是扩展性强大~什么都能玩~一个手机在手里基本上就不愁打发不掉时间~
纯说规格配置没太多意义~评价下~
6681可以称得上是中国大陆地区能够买到的行货产品中的~s60机皇~它采用了新版本symbian os v8.0操作系统~基于目前最高的series 60 2.6平台(实际上就是series60 ii加feature pack 2补丁包~而硬件方面~cpu使用arm型号为arm5~工作频率220mhz的中央处理器~屏幕参数为26万色176*208分辨率tft材质~最大可运行内存空间在8mb左右~而用户可存储内存空间为8mb~
数据传输方面支持红外、蓝牙和数据线~预装的最新版realplayer可以兼容rm~3gp~mpeg-4~midi~amr~wav~mp3和aac等多种音视频格式~rs-mmc卡中的quickoffice软件还可以浏览ppt、word、excel、pdf等格式的文档~实际有效像素为123万的摄头~最大可拍照1280×960分辨率的图片~支持6倍数码变焦,配有夜间、连拍及自拍三种拍照模式和高、中、一般拍照质量~而nokia还首次在自己的s60手机中引入了亮度、对比度、白平衡和色调的调整选项~
这借用下~中关村在线手机频道行情报道(2006年7月26日)
机型
诺基亚6681(改版机)
最新价格
纯黑色:2250元;推荐哦~很好看的限量哦~
其它颜色:2080元;
规格参数
网络频率
gsm/gprs/edge 900/1800/1900mhz;
尺寸大小
108.4×55.2×21.3毫米;
重 量
130.5克;
屏幕参数
2.1英寸26万色tft材质,分辨率为176×208像素;
铃声系统
48和弦;支持aac、amr (nb-amr)、midi 、mp3、realaudio、true tones (wb-amr)、wav等格式铃声文件;
操作系统
symbian os 8.0系统,s60平台;
处理器频率
220mhz;
内存容量
8mb;
存储卡类型
rs-mmc扩展(支持热插拔);
java扩展
cldc 1.1/midp 2.0;
摄像功能描述
摄像头有滑盖保护,最大限度上防止磨损的意外发生,6倍数码变焦;
摄像头像素
130万像素;有效象素123万;
闪光灯
覆盖范围达1.5米;
照片分辨率
可拍摄最大分辨率为1280×960的数码照片;
拍摄模式
自动、晴天、阴天、白炽灯和荧光灯五种白平衡模式;
照片特效
普通、棕褐色、黑白和补色四种色调选择
照片质量
“高”、“中”、“一般”来选择不同的画面质量;
视频拍摄
有声视频拍摄;用户可以对短片通过开始和结束点的标记进行自由剪切,并随意插入另外一段已有的视频片段。片段之间的过渡可选择渐白或渐黑的专业过场效果,同时对短片本身可加设颜色效果或将短片的播放速度进行调节;在音效方面的编辑除了可添设已有的音频文件之外,还可随时添加现场录音,用户可以通过该功能对短片进行现场环境声音的采集或者自我语音注释,从而使短片在背景声效方面有更大的可操作空间,用户也可通过这样的编辑给朋友送上最为亲切的问候。诺基亚6681还提供了对音频文件的移动和设定长度选择,用户可以通过移动音频文件的位置来设定在短片播放到哪个时段才有声音;
视频分辨率
128×96像素、176×144像素;
视频播放
内置realone player;可全屏回放视频短片,它对多媒体文件的支持包括.3gp、.mp4、mpeg-4、h.263、amr、realmedia、mp3和aac等;
mp3播放器
多媒体文件的支持包括.3gp、.mp4、mpeg-4、h.263、amr、realmedia、mp3和aac等;立体声音频输出;
输入法
联想文字输入;
短信功能
中文短信;
多媒体短信
彩信容量最大可达300kb;
计算器
支持;
秒表
支持;
日程表
支持;
备忘录
支持;
蓝牙
支持;
数据线
pop-port接口[耳机/usb/耳麦];
www浏览器
xhtml/html浏览器,可支持javascript 1.5、http页面;
电子字典
英汉辞典;
wap浏览器
wap 2.0;
办公功能
可浏览ppt、word、excel格式的文件;
pdf文件浏览
支持pdf格式文件浏览;
...只能用超星阅览器阅读,能否转换成可以修改的word...
这你就问对人了,我可是亲身实践过的。不过要先转成pdf,再转word就简单了。
方法1:
安装pdf虚拟打印机(fineprint pdf factory或者安装pdf虚拟打印机),在超星浏览器里用打印功能打印需转换的书籍(可以打印单一页,也可打印多页,可以设置),点击 确定 后会出现一个 打印机 的选择界面,选择 pdf虚拟打印机 ,然后会出现一个 pdf虚拟打印机 打印完成的界面(时间长短视打印页数而定),点击 保存 并给新文件起名,就转为pdf的了。
方法2:
装一个acrobate professional 7.0,装完以后,控制面板打印机选项会多出来一个打印机,叫adobe pdf,给它改个名字,改成adobe padf,设为默认打印机。
打开一本书,在图书命令项选择“打印”,填进去页数。
一般要分两次甚至几次打,顺利的就两次。先计算一下正文以前所有页的页数,包括封面、前言、目录等等。计算办法:先看一下整个超星文件属性,里面有个页数,用这个数目减去正文页数,再减去1或2页(超星书里一般有一两个不是pdg的文件,叫bookinfo什么的),就是第一次打印的页数,填进打印选项,给打印文件指定一个路径。开始打印,就会打出一个pdf文件。
下来打正文,把正文页数填进去。再打印出一个pdf文件。
然后用professional把两个文件合成一个(这个你会吧?)
这算顺利的,前提是你下的书没有加密页页没有坏页,如果有,就麻烦了,就会卡住,一般是在正文部分,卡住就打不出来了。这时不要急,打印的时候有一个页面显示,提示已经打了多少页了,打不出来的时候你看看大致在多少页卡住了,然后关掉超星。进去原超星书文件,在大概出问题的地方前后找一找,找到卡住的页的页码。打个比方吧,打正文的时候发现在167页卡住了,就的重新打,把页数填成166。然后从168页开始打后面的。如果卡住的地方太多了,除非是特别难找到的书,我不耐烦了就会放弃,把书删掉,以后再下载,因为可能是下载的时候网速太慢导致有些页坏了,再下一次就不会有那么多坏页了。但是如果是加密页,再下一次也还是那样,那就没有办法了,只有耐着性子来。如果是特别好的书有些页没打出来,把缺的页码记下来,说不定以后能找到。
3.转为pdf之后在acrobat 7.0 里面选择另存为文本就可以是word了。
先说这些,你好好琢磨,有问题再问我,一定保证给你弄出来。
请问:如果把书上的文字用扫描仪扫到电脑上,文字是否...
扫描文字,结果以图片格式(.bmp)存入电脑。然后使用orc识别系统进行转换,最终用word进行修改编辑。下面教你如何使用orc:
ocr是英文optical character recognition的缩写,翻译成中文就是通过光学技术对文字进行识别的意思, 是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。现在ocr主要是指文字识别软件,在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和ocr软件一直是分开销售的,专业的ocr软件谠缧┦焙蚵舻帽壬�枰腔挂�蟆k孀派�枰欠直媛实奶嵘��ocr软件也在不断升级,扫描仪厂商现在已把专业的ocr软件搭配自己生产的扫描仪出售。ocr技术的迅速发展与扫描仪的广泛使用是密不可分的,近两年随着扫描仪逐渐普及和ocr技术的日臻完善,ocr己成为绝大多数扫描仪用户的得力助手。
一、ocr技术的发展历程
自20世纪60年代初期出现第一代ocr产品开始,经过30多年的不断发展改进,包括手写体的各种ocr技术的研究取得了令人瞩目的成果,人们对ocr产品的功能要求也从原来的单纯注重识别率,发展到对整个ocr系统的识别速度、用户界面的友好性、操作的简便性、产品的稳定性、适应性、可靠性和易升级性、售前售后服务质量等各方面提出更高的要求。
ibm公司最早开发了ocr产品,1965年在纽约世界博览会上展出了ibm公司的ocr产品――ibml287。当时的这款产品只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。20世纪60年代末,日立公司和富士通公司也分别研制出各自的ocr产品。全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后nec公司也推出了同样的系统。到了1974年,信函的自动分拣率达到92%左右,并且广泛地应用在邮政系统中,发挥着较好的作用。1983年日本东芝公司发布了其识别印刷体日文汉字的ocr系统ocrv595,其识别速度为每秒70~100个汉字,识别率为99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作。
中国在ocr技术方面的研究工作相对起步较晚,在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末开始进行汉字识别的研究。1986年,国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文ocr软件的开发工作。至1989年,清华大学率先推出了国内第一套中文ocr软件--清华文通th-ocr1.0版,至此中文ocr正式从实验室走向了市场。清华ocr印刷体汉字识别软件其后又推出了th-ocr 92高性能实用简/繁体、多字体、多功能印刷汉字识别系统,使印刷体汉字识别技术又取得重大进展。到1994年推出的th-ocr 94高性能汉英混排印刷文本识别系统,则被专家鉴定为“是国内外首次推出的汉英混排印刷文本识别系统,总体上居国际领先水平”。上个世纪90年代中后期,清华大学电子工程系提出并进行了汉字识别综合研究,使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具有代表性的成果是th-ocr 97综合集成汉字识别系统,它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。几年来,除清华文通th-ocr外,其它如尚书sh-ocr等各具风格的ocr软件也相继问世,中文ocr市场稳步扩大,用户遍布世界各地。
可以说目前印刷体ocr的识别技术已经达到较高水平。ocr产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号,发展成为可以自动进行版面分析、表格识别,实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息快速录入工具。对印刷体汉字的识别率达到98%以上,即使对印刷质量较差的文字其识别率也达到95%以上。可识别宋体、黑体、楷体、仿宋体等多种字体的简、繁体,并且可以对多种字体、不同字号混合排版进行识别,对手写体汉字的识别率达到70%以上。特别是我国的汉字ocr技术经过十几年的努力,克服了起步晚、汉字字符集异常庞大等困难,单字的识别速度(指在单位时间内所完成的从特征提取到识别结果输出的字数)可以达到70字/秒以上。由于印刷体ocr汉字识别技术已经比较成熟,所以ocr产品被广泛地应用在新闻、印刷、出版、图书馆、办公自动化等各个行业。
专业型ocr产品多是面向特定的行业,即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等等。这种面向特定行业的专业型ocr系统,格式较为固定,识别的字符集相对较小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点,比如邮件自动分拣系统等。
手写文稿的识别直到1996、1997年才开始有产品问世,而且是作为印刷文稿识别产品的一项附加功能提供的。由于人写字的习惯千差万别,实现自由手写体识别相当困难,所以手写体ocr技术的使用领域是联机手写体识别,即人一边写,计算机一边识别,是一种实时识别方式。
二、ocr的基本原理
简单地说,ocr的基本原理就是通过扫描仪将一份文稿的图像输入给计算机,然后由计算机取出每个文字的图像,并将其转换成汉字的编码。其具体工作过程是,扫描仪将汉字文稿通过电荷耦合器件ccd将文稿的光信号转换为电信号,经过模拟/数字转换器转化为数字信号传输给计算机。计算机接受的是文稿的数字图像,其图像上的汉字可能是印刷汉字,也可能是手写汉字,然后对这些图像中的汉字进行识别。对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,再通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。其中文字识别是ocr的重要技术。
1.ocr识别的两种方式
与其它信息数据一样,在计算机中所有扫描仪捕捉到的图文信息都是用0、1这两个数字来记录和进行识别的,所有信息都只是以0、1保存的一串串点或样本点。ocr识别程序识别页面上的字符信息,主要通过单元模式匹配法和特征提取法两种方式进行字符识别。
单元模式匹配识别法(pattern matching)是将每一个字符与保存有标准字体和字号位图的文件进行不严格的比较。如果应用程序中有一个已保存字符的大数据库,则应用程序会选取合适的字符进行正确的匹配。软件必须使用一些处理技术,找出最相似的匹配,通常是不断试验同一个字符的不同版本来比较。有些软件可以扫描一页文本,并鉴别出定义新字体的每一个字符。有些软件则使用自己的识别技术,尽其所能鉴别页面上的字符,然后将不可识别的字符进行人工选择或直接录入。
特征提取识别法(feature extraction)是将每个字符分解为很多个不同的字符特征,包括斜线、水平线和曲线等。然后,又将这些特征与理解(识别)的字符进行匹配。举个简单的例子,应用程序识别到两条水平横线,它就会“认为”该字符可能是“二”。特征提取法的优点是可以识别多种字体,例如中文书法体就是采用特征提取法实现字符识别的。
多数ocr应用软件都加入了语法智能检查功能,这种功能进一步提高了识别率。它主要通过上下文检查法实现拼写和语法的纠正,在文字识别时,ocr应用程序会做多次的上下文衔接性检查,根据程序中已经存在的词组、固定的用词顺序,对应的检查字符串的用词字。比较高级的应用软件会自动用它“认为”正确的词语替换错误词语,纠正语句意思。
2.文字识别的几个步骤
文字识别包括以下几个步骤:图文输入、预处理、单字识别和后处理等。
(1)图文输入
是指通过输入设备将文档输入到计算机中,也就是实现原稿的数字化。现在用得比较普遍的设备是扫描仪。文档图像的扫描质量是ocr软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数,是保证文字清楚、特征不丢失的关键。此外,文档尽可能地放置端正,以保证预处理检测的倾斜角小,在进行倾斜校正后,文字图像的变形就小。这些简单的操作,会使系统的识别正确率有所提高。反之,由于扫描设置不当,文字的断笔过多可能会分检出半个文字的图像。文字断笔和笔画粘连会造成有些特征丢失,在将其特征与特征库比较时,会使其特征距离加大,识别错误率上升。
(2)预处理
扫描一幅简单的印刷文档的图像,将每一个文字图像分检出来交给识别模块识别,这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作,包括图像净化处理,去掉原始图像中的显见噪声(干扰)。主要任务是测量文档放置的倾斜角,对文档进行版面分析,对选出的文字域进行排版确认,对横、竖排版的文字行进行切分,每一行的文字图像的分离,标点符号的判别等。这一阶段的工作非常重要,处理的效果直接影响到文字识别的准确率。
版面分析是对文本图像的总体分析,是将文档中的所有文字块分检出来,区分出文本段落及排版顺序,以及图像、表格的区域。将各文字块的域界(域在图像中的始点、终点坐标),域内的属性(横、竖排版方式)以及各文字块的连接关系作为一种数据结构,提供给识别模块自动识别。对于文本区域直接进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。
(3)单字识别
单字识别是体现ocr文字识别的核心技术。从扫描文本中分检出的文字图像,由计算机将其图形、图像转变成文字的标准代码,是让计算机“认字”的关键,也就是所谓的识别技术。就像人脑认识文字是因为在人脑中已经保存了文字的各种特征,如文字的结构、文字的笔画等。要想让计算机来识别文字,也需要先将文字的特征等信息储存到计算机里,但要储存什么样的信息及怎样来获取这些信息是一个很复杂的过程,而且要达到非常高的识别率才能符合要求。通常采用的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析。
中国汉字常用的就有几千,识别技术就是特征比较技术,通过和识别特征库的比较,找到特征最相似的字,提取该文字的标准代码,即为识别结果。比较是人们认识事物的一种基本方法,汉字识别也是通过比较找出汉字之间的相同、相似、相异,把握其量和质的关系,以及时间与空间的关系等。对于大字符集的汉字一般采用多级分类,多特征、全方位动态匹配求相似集,以保证分类率高、适应性强、稳定性好;细分类重点在于对相似集求异匹配、加权处理、结构判别,定量、定性分析,以及前后联接词的关系,最后进行判别。汉字识别实质上是比较科学或认知科学在人工智能方面的应用,其关键技术是识别特征库。计算机有了这样的一个特征库,才能完成认字的功能。
在图像文档的版面中,除了有文字、图片,有时还会有表格存在,为了使识别后的表格数字化,需要在版面分析过程中,对表格域进行特殊的处理,它包括对表格线的结构信息的提取,对表格内文字域的分检,完成对表格线和对文字域的识别,并根据表格线的数字化生成不同的文件格式。由于文档中的表格随意性大,格式多样,有封闭式的,也有开放式的,特别是表格中的斜线,给表格分析造成一定的困难。
(4)后处理
后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配,即将单字识别的结果进行分词,与词库中的词组进行比较,以提高系统的识别率,减少误识率。
汉字字符识别是文字识别领域最为困难的问题,它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过95%,为了进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。清华大学在此方面的研究成果突出,已经成为世界上的最具权威的机构之一。目前,清华紫光的全系列扫描仪中都配装了清华ocr千禧版软件,它在识别率、表格识别甚至规范手写体的识别方面,均达到了较高水平。
三、ocr文字识别技巧
在最近几年中,ocr识别技术随着扫描仪的普及得到了飞速的发展,扫描、识别软件的性能不断强大并向智能化不断升级发展。但是要想快速地获取正确的扫描结果,得到高效率的文字录入,必须认真学习有关知识,结合实践经验,摸索出自己的全套解决方案。有时我们在作文字识别工作时识别率非常低,根本达不到软件所说的95%以上,请先不要责怪硬件或软件,其实这是没有掌握好扫描及ocr识别技巧的原因。
下面是文字识别操作中经常用到了一些方法和技巧。
1.分辨率的设置是文字识别的重要前提。一般来讲,扫描仪提供较多的图像信息,识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确率就越高。选择300dpi或400dpi分辨率,适合大部分文档扫描。注意文字原稿的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然会得不偿失。下面是部分典型设置,仅供参考。
(1)1、2、3号字的文章段,推荐使用200dpi。
(2)4、小4、5号字的文章段,推荐使用300dpl
(3)小5、6号字的文章段,推荐使用400dpl
(4)7、8号字的文章段,推荐使用600dpi。
2. 扫描时适当地调整好亮度和对比度值,使扫描文件黑白分明。这对识别率的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。进行识别前,先看看扫描得到的图像中文字质量如何,如果图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,说明亮度值太小了,应该增加亮度值在试试;如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大了,应减小亮度后再试试。
3.选好扫描软件。选一款好的适合自己的ocr软件是作好文字识别工作的基础,一般不要使用扫描仪自带的oem软件,oem的ocr软件的功能少、效果差,有的甚至没有中文识别,经过比较,我认为清华紫光ocr2003专业版和尚书ocr6.0文本自动识别输入系统的识别能力与使用功能更突出一些。再选一个图像软件,ocr软件不是有扫描接口吗?为什么还找图像软件?第一,ocr软件不能识别所有的扫描仪;第二,也是最关键的,利用图像软件的扫描接口扫描出来的图像便于处理;一般选用photoshop。
4.如果要进行的文本是带有格式的,如粗体、斜体、首行缩进等,部分ocr软件识别不出来,会丢失格式或出现乱码。如果必须扫描带有格式的文本,事先要确保使用的识别软件是否支持文字格式的扫描。也可以关闭样式识别系统,使软件集中注意力查找正确的字符,不再顾及字体和字体格式。