开通会员
  • 尊享所有功能
  • 文件大小最高200M
  • 文件无水印
  • 尊贵VIP身份
  • VIP专属服务
  • 历史记录保存30天云存储
开通会员
您的位置:首页 > 帮助中心 > word高效办公pdf-电脑软件问题
帮助中心 >

word高效办公pdf-电脑软件问题

2023-01-08 16:49:12

电脑软件问题

电脑软件问题
扫描文字,结果以图片格式(.bmp)存入电脑。然后使用orc识别系统进行转换,最终用word进行修改编辑。下面教你如何使用orc:

ocr是英文optical character recognition的缩写,翻译成中文就是通过光学技术对文字进行识别的意思, 是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。现在ocr主要是指文字识别软件,在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和ocr软件一直是分开销售的,专业的ocr软件谠缧┦焙蚵舻帽壬枰腔挂�蟆k孀派枰欠直媛实奶嵘��ocr软件也在不断升级,扫描仪厂商现在已把专业的ocr软件搭配自己生产的扫描仪出售。ocr技术的迅速发展与扫描仪的广泛使用是密不可分的,近两年随着扫描仪逐渐普及和ocr技术的日臻完善,ocr己成为绝大多数扫描仪用户的得力助手。

一、ocr技术的发展历程

自20世纪60年代初期出现第一代ocr产品开始,经过30多年的不断发展改进,包括手写体的各种ocr技术的研究取得了令人瞩目的成果,人们对ocr产品的功能要求也从原来的单纯注重识别率,发展到对整个ocr系统的识别速度、用户界面的友好性、操作的简便性、产品的稳定性、适应性、可靠性和易升级性、售前售后服务质量等各方面提出更高的要求。

ibm公司最早开发了ocr产品,1965年在纽约世界博览会上展出了ibm公司的ocr产品――ibml287。当时的这款产品只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。20世纪60年代末,日立公司和富士通公司也分别研制出各自的ocr产品。全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后nec公司也推出了同样的系统。到了1974年,信函的自动分拣率达到92%左右,并且广泛地应用在邮政系统中,发挥着较好的作用。1983年日本东芝公司发布了其识别印刷体日文汉字的ocr系统ocrv595,其识别速度为每秒70~100个汉字,识别率为99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作。

中国在ocr技术方面的研究工作相对起步较晚,在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末开始进行汉字识别的研究。1986年,国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文ocr软件的开发工作。至1989 年,清华大学率先推出了国内第一套中文ocr软件--清华文通th-ocr1.0版,至此中文ocr正式从实验室走向了市场。清华ocr印刷体汉字识别软件其后又推出了th-ocr 92高性能实用简/繁体、多字体、多功能印刷汉字识别系统,使印刷体汉字识别技术又取得重大进展。到1994年推出的th-ocr 94高性能汉英混排印刷文本识别系统,则被专家鉴定为“是国内外首次推出的汉英混排印刷文本识别系统,总体上居国际领先水平”。上个世纪90年代中后期,清华大学电子工程系提出并进行了汉字识别综合研究,使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具有代表性的成果是th-ocr 97综合集成汉字识别系统,它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。几年来,除清华文通th-ocr 外,其它如尚书sh-ocr等各具风格的ocr软件也相继问世,中文ocr市场稳步扩大,用户遍布世界各地。

可以说目前印刷体ocr的识别技术已经达到较高水平。ocr产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号,发展成为可以自动进行版面分析、表格识别,实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息快速录入工具。对印刷体汉字的识别率达到98%以上,即使对印刷质量较差的文字其识别率也达到95%以上。可识别宋体、黑体、楷体、仿宋体等多种字体的简、繁体,并且可以对多种字体、不同字号混合排版进行识别,对手写体汉字的识别率达到70%以上。特别是我国的汉字ocr技术经过十几年的努力,克服了起步晚、汉字字符集异常庞大等困难,单字的识别速度(指在单位时间内所完成的从特征提取到识别结果输出的字数)可以达到70字/秒以上。由于印刷体ocr汉字识别技术已经比较成熟,所以ocr产品被广泛地应用在新闻、印刷、出版、图书馆、办公自动化等各个行业。

专业型ocr产品多是面向特定的行业,即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等等。这种面向特定行业的专业型ocr系统,格式较为固定,识别的字符集相对较小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点,比如邮件自动分拣系统等。

手写文稿的识别直到1996、1997年才开始有产品问世,而且是作为印刷文稿识别产品的一项附加功能提供的。由于人写字的习惯千差万别,实现自由手写体识别相当困难,所以手写体ocr技术的使用领域是联机手写体识别,即人一边写,计算机一边识别,是一种实时识别方式。

二、ocr的基本原理

简单地说,ocr的基本原理就是通过扫描仪将一份文稿的图像输入给计算机,然后由计算机取出每个文字的图像,并将其转换成汉字的编码。其具体工作过程是,扫描仪将汉字文稿通过电荷耦合器件ccd将文稿的光信号转换为电信号,经过模拟/数字转换器转化为数字信号传输给计算机。计算机接受的是文稿的数字图像,其图像上的汉字可能是印刷汉字,也可能是手写汉字,然后对这些图像中的汉字进行识别。对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,再通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。其中文字识别是ocr的重要技术。

1.ocr识别的两种方式

与其它信息数据一样,在计算机中所有扫描仪捕捉到的图文信息都是用0、1这两个数字来记录和进行识别的,所有信息都只是以0、1保存的一串串点或样本点。ocr识别程序识别页面上的字符信息,主要通过单元模式匹配法和特征提取法两种方式进行字符识别。

单元模式匹配识别法(pattern matching)是将每一个字符与保存有标准字体和字号位图的文件进行不严格的比较。如果应用程序中有一个已保存字符的大数据库,则应用程序会选取合适的字符进行正确的匹配。软件必须使用一些处理技术,找出最相似的匹配,通常是不断试验同一个字符的不同版本来比较。有些软件可以扫描一页文本,并鉴别出定义新字体的每一个字符。有些软件则使用自己的识别技术,尽其所能鉴别页面上的字符,然后将不可识别的字符进行人工选择或直接录入。

特征提取识别法(feature extraction)是将每个字符分解为很多个不同的字符特征,包括斜线、水平线和曲线等。然后,又将这些特征与理解(识别)的字符进行匹配。举个简单的例子,应用程序识别到两条水平横线,它就会“认为”该字符可能是“二”。特征提取法的优点是可以识别多种字体,例如中文书法体就是采用特征提取法实现字符识别的。

多数ocr应用软件都加入了语法智能检查功能,这种功能进一步提高了识别率。它主要通过上下文检查法实现拼写和语法的纠正,在文字识别时,ocr应用程序会做多次的上下文衔接性检查,根据程序中已经存在的词组、固定的用词顺序,对应的检查字符串的用词字。比较高级的应用软件会自动用它“认为”正确的词语替换错误词语,纠正语句意思。

2.文字识别的几个步骤

文字识别包括以下几个步骤:图文输入、预处理、单字识别和后处理等。

(1)图文输入

是指通过输入设备将文档输入到计算机中,也就是实现原稿的数字化。现在用得比较普遍的设备是扫描仪。文档图像的扫描质量是ocr软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数,是保证文字清楚、特征不丢失的关键。此外,文档尽可能地放置端正,以保证预处理检测的倾斜角小,在进行倾斜校正后,文字图像的变形就小。这些简单的操作,会使系统的识别正确率有所提高。反之,由于扫描设置不当,文字的断笔过多可能会分检出半个文字的图像。文字断笔和笔画粘连会造成有些特征丢失,在将其特征与特征库比较时,会使其特征距离加大,识别错误率上升。

(2)预处理

扫描一幅简单的印刷文档的图像,将每一个文字图像分检出来交给识别模块识别,这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作,包括图像净化处理,去掉原始图像中的显见噪声(干扰)。主要任务是测量文档放置的倾斜角,对文档进行版面分析,对选出的文字域进行排版确认,对横、竖排版的文字行进行切分,每一行的文字图像的分离,标点符号的判别等。这一阶段的工作非常重要,处理的效果直接影响到文字识别的准确率。

版面分析是对文本图像的总体分析,是将文档中的所有文字块分检出来,区分出文本段落及排版顺序,以及图像、表格的区域。将各文字块的域界(域在图像中的始点、终点坐标),域内的属性(横、竖排版方式)以及各文字块的连接关系作为一种数据结构,提供给识别模块自动识别。对于文本区域直接进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。

(3)单字识别

单字识别是体现ocr文字识别的核心技术。从扫描文本中分检出的文字图像,由计算机将其图形、图像转变成文字的标准代码,是让计算机“认字”的关键,也就是所谓的识别技术。就像人脑认识文字是因为在人脑中已经保存了文字的各种特征,如文字的结构、文字的笔画等。要想让计算机来识别文字,也需要先将文字的特征等信息储存到计算机里,但要储存什么样的信息及怎样来获取这些信息是一个很复杂的过程,而且要达到非常高的识别率才能符合要求。通常采用的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析。

中国汉字常用的就有几千,识别技术就是特征比较技术,通过和识别特征库的比较,找到特征最相似的字,提取该文字的标准代码,即为识别结果。比较是人们认识事物的一种基本方法,汉字识别也是通过比较找出汉字之间的相同、相似、相异,把握其量和质的关系,以及时间与空间的关系等。对于大字符集的汉字一般采用多级分类,多特征、全方位动态匹配求相似集,以保证分类率高、适应性强、稳定性好;细分类重点在于对相似集求异匹配、加权处理、结构判别,定量、定性分析,以及前后联接词的关系,最后进行判别。汉字识别实质上是比较科学或认知科学在人工智能方面的应用,其关键技术是识别特征库。计算机有了这样的一个特征库,才能完成认字的功能。

在图像文档的版面中,除了有文字、图片,有时还会有表格存在,为了使识别后的表格数字化,需要在版面分析过程中,对表格域进行特殊的处理,它包括对表格线的结构信息的提取,对表格内文字域的分检,完成对表格线和对文字域的识别,并根据表格线的数字化生成不同的文件格式。由于文档中的表格随意性大,格式多样,有封闭式的,也有开放式的,特别是表格中的斜线,给表格分析造成一定的困难。

(4)后处理

后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配,即将单字识别的结果进行分词,与词库中的词组进行比较,以提高系统的识别率,减少误识率。

汉字字符识别是文字识别领域最为困难的问题,它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过95%,为了进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。清华大学在此方面的研究成果突出,已经成为世界上的最具权威的机构之一。目前,清华紫光的全系列扫描仪中都配装了清华ocr千禧版软件,它在识别率、表格识别甚至规范手写体的识别方面,均达到了较高水平。

三、ocr文字识别技巧

在最近几年中,ocr识别技术随着扫描仪的普及得到了飞速的发展,扫描、识别软件的性能不断强大并向智能化不断升级发展。但是要想快速地获取正确的扫描结果,得到高效率的文字录入,必须认真学习有关知识,结合实践经验,摸索出自己的全套解决方案。有时我们在作文字识别工作时识别率非常低,根本达不到软件所说的95%以上,请先不要责怪硬件或软件,其实这是没有掌握好扫描及ocr识别技巧的原因。

下面是文字识别操作中经常用到了一些方法和技巧。

1.分辨率的设置是文字识别的重要前提。一般来讲,扫描仪提供较多的图像信息,识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确率就越高。选择300dpi或400dpi分辨率,适合大部分文档扫描。注意文字原稿的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然会得不偿失。下面是部分典型设置,仅供参考。
(1)1、2、3号字的文章段,推荐使用200dpi。
(2)4、小4、5号字的文章段,推荐使用300dpl
(3)小5、6号字的文章段,推荐使用400dpl
(4)7、8号字的文章段,推荐使用600dpi。

2. 扫描时适当地调整好亮度和对比度值,使扫描文件黑白分明。这对识别率的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。进行识别前,先看看扫描得到的图像中文字质量如何,如果图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,说明亮度值太小了,应该增加亮度值在试试;如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大了,应减小亮度后再试试。

3.选好扫描软件。选一款好的适合自己的ocr软件是作好文字识别工作的基础,一般不要使用扫描仪自带的oem软件,oem的ocr软件的功能少、效果差,有的甚至没有中文识别,经过比较,我认为清华紫光ocr2003专业版和尚书ocr6.0文本自动识别输入系统的识别能力与使用功能更突出一些。再选一个图像软件,ocr软件不是有扫描接口吗?为什么还找图像软件?第一,ocr软件不能识别所有的扫描仪;第二,也是最关键的,利用图像软件的扫描接口扫描出来的图像便于处理;一般选用photoshop。

4.如果要进行的文本是带有格式的,如粗体、斜体、首行缩进等,部分ocr软件识别不出来,会丢失格式或出现乱码。如果必须扫描带有格式的文本,事先要确保使用的识别软件是否支持文字格式的扫描。也可以关闭样式识别系统,使软件集中注意力查找正确的字符,不再顾及字体和字体格式。

扫描文件一律是图片格式,不能用word编辑文字.
用扫描仪自带的软件进行ocr识别,识别后的文字就可以用word编辑修改了.而且会有识别错误,识别率跟识别软件,及扫描的图片质量有关,
如果文本中同时含有几种不同语言的话,识别错误会更多.对于识别,用专门的ocr软件效果也许会理想一些.

ocr技巧:
http://64.233.167.104/search?q=cache:3-jgra8kr4cj:www.yesky.com/226/1760226.shtml+%e6%89%ab%e6%8f%8f%e4%bb%aa+orc+%e6%96%87%e5%ad%97&hl=zh-cn&gl=cn&ct=clnk&cd=1

专门的ocr识别软件:
尚书ocr:
http://www.saomiaoyi.cn/chanpin/..%5cchanpin%5cwenzishibie2.htm
清华紫光ocr,
微软office 2003 ocr:
www.fixdown.com/wz/article/34/36/2006/56925.htm

参考资料: www.fixdown.com/wz/article/34/36/2006/56925.htm

如果你有扫描仪的话,就需要一款汉王ocr软件,如6800。如果没有扫描仪的话,需要购进一款汉王6800(或更高的级别的)扫描仪,随机赠送ocr软件。
它能够将扫描的文字直接导入到word中进行编辑。

pdf转化word

1. 第一步:先用adobe reader打开想转换的pdf文件,接下来选择“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的“名称”设置为“microsoft office document image writer”,确认后将该pdf文件输出为mdi格式的虚拟打印文件。

第二步:运行microsoft office document imaging,并利用它来打开刚才保存的mdi文件,选择“工具→将文本发送到word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行ocr。这可能需要一些时间”,不管它,确认即可。

2. 情况一:如果pdf文档本身就是用pagemaker或word转换而来的(文字非常清晰锐利,很容易识别),那你就方便了。你可以先用acrobat打开,然后点文件――>另存为――>把他保存成rtf文档,这样将把所有的pdf页保存成rtf文档,在用word打开。注意最好保存成rtf 文档,要不很有可能产生乱码。小技巧:如果你只想识别pdf文件中的其中几页,那你可以现把那几页另存为新的pdf文档,再进行识别。ny1
情况二:如果你所得到的pdf文档是用扫描仪扫进去的图片转换的,那么就麻烦了,不过还是比手输入快多了,所以继续往下看。首先你用 acrobat把pdf文件打开,然后点文件――>另存为――>把他保存成图片格式*.tiff(这是无压缩图片格式,以便识别),然后到网上下载文字识别软件,建议用尚书六号(现在好像出到七号了,很有名,随处都可以下到),安装好后,打开转换好的tiff图片,点击识别,看,文字出来了吧,尚书系列文字识别软件功能十分强大,你可以在里面把文字都编辑好了,再保存成rtf或txt文件,然后粘贴到word里就可以使用了,注意过滤回车符。

操作系统分64位和32位的吗?

操作系统分64位和32位的吗?
认识64位操作系统

现在,windows xp 64 professional x64 edition(以下简称windows xp 64)已经正式推出,和32位的windows xp相比,它有哪些显著的变化呢?它能顺利支持32位应用吗?普通用户现在可以升级到windows xp 64吗?

跨入64位之路

“位”,简单地理解就是cpu的寻址空间。在计算机技术的发展史上,位的演变起到了举足轻重的作用。从1971年的4位计算到如今已来临的64位计算时代,经历了漫长的演变过程。

1978--1995年:16位大行其道

1978年,intel推出了首颗16位cpu--8086。在此期间,操作系统走过了16位的pc-dos、ms-dos、cp/m-86、ucsd pascal p-system,ms-dos开始成为个人计算机操作系统的霸主,直到今天,dos在windows系统维护中仍然扮演着重要的角色。值得我们怀念的是,那时国人的电脑上几乎没有不安装wps for dos(早期的文字处理软件,相当于现在的 word)的,为计算机在我国办公领域的应用打下了坚实的基础,同时,国人也成功地开发出了中文dos系统,如ccdos等。

1985年,微软推出了windows 1.0,之后又陆续推出了windows 2.0、windows 286、windows 386,但由于性能平平而没有得到人们的注意。直到1990年5月,微软推出了windows 3.0,加入了许多有用的功能,并首次加入了多媒体功能,被舆论称为“多媒体的dos”。windows 3.0一经面世,就取得惊人的成功,一举奠定了微软在操作系统上的垄断地位。

1995年至今:从16位到32位的飞跃

1985年intel推出了首颗32位处理器80386。在此期间,1995年8月,微软推出了windows 95,称为操作系统发展史上一个里程碑。从windows 95到windows 98/me,都是混合16/32位计算的操作系统,并不是纯32位操作系统,稳定性和性能方面虽比过去得到了较大的提升,但仍不能满足人们对计算机应用的需要。

2000年,微软推出了windows 2000,开辟了个人桌面32位计算与应用的新时代。2001年发布的windows xp成为目前使用率最高的操作系统。

32位计算时代最成功的应用就是多媒体和internet,32位的windows平台上涌现了很多之前只能运行在sgi等大型图形工作站的应用程序,如3dmax、photoshop等,人们不再为这些多媒体创作而购买极其昂贵的图形工作站,日益成熟的32位计算开辟了pc担任多媒体应用工具的新纪元。

2005年:64位即将君临天下

今天,64位计算平民化的时代即将来临。和以前8位向16位跃进、16位向32位跃进耗费十几年的情况不同, 64位cpu推出没几年,就出现了64位的windows xp和64位的windows server 2003。微软称,64位的longhorn也将于2006年发布。

除此之外,与个人桌面系统同步的还有服务器系统,如windows nt/server 2000/server 2003等,就在微软发布64位windows xp的同时,也发布了64位windows server 2003。至今,还可从微软网站注册并下载64位的有120天限制的windows server 2003。

为什么需要升级到64位

如前所述,随着多媒体功能的渗入和硬件价格的日趋平民化,越来越多的人加入到pc应用的行列,造就了一大批进行家庭多媒体创作等应用的非专业人士,很多人不再满足于用电脑打字、作表格、上网聊天等简单应用。随着人们对电脑要求越来越高,32位系统已力不从心,于是64位cpu和64位操作系统先后出炉。在操作系统方面,经过充分的准备(包括前段时间微软推出的免费下载试用),微软终于在今年4月25日推出了具有重要意义的64位windows xp和64位windows server 2003。

按微软官方的说法,windows xp professional x64 edition的设计初衷是满足机械设计和分析、三维动画、视频编辑和创作以及科学计算和高性能计算应用程序等领域中需要大量内存和浮点性能的客户的需求--这些应用都需要高性能和大内存的支持。

64位与32位windows xp相比的一大特色就是能提供大内存的支持。当前,32位windows能支持最多4gb的系统内存,每个处理器可最多使用2gb专用内存。而windows xp professional x64 edition当前支持多达128gb内存,随着硬件功能的增强和内存大小的增加,有可能支持多达16tb(1tb=1000gb)的虚拟内存。其它数据请见下表:

再从个人桌面系统用户的角度来看,内存容量的限制只是体现64位计算技术优势的一个方面,大量数据处理才是64位计算真正发挥功效的地方。pc已经不仅仅是用户计算的工具,它更是“多媒体”中心,很多这方面应用是32位计算根本无法满足的。如在家用领域,32位无法实现高保真的声像,甚至无法完成20分钟视频的播放和编辑;在建筑、游戏设计领域,32位计算无法完成大量的数据计算和处理;在互联网上,32位计算无法实现大量的各种类型的数据搜索--这些应用都需要64位计算来实现。

64位windows xp的安装

要说明的是,64位windows xp只能在64位平台上安装,因为安装程序在安装之前会对系统进行检测,如果检测不到64位cpu,操作系统将中断安装过程

现行的64位windows xp还只有英文版,加之对新系统的不熟悉和新系统的兼容问题,目前国内32位系统依然占据主流。可能很多读者首先想到的是多系统,保留原32位windows xp,用光盘启动,将64位windows xp安装到另一分区或原系统分区的另一目录下,不过这种做法存在严重的兼容性问题。兼顾以上种种理由,笔者推荐大家采用独立多系统法。

步骤1:用dos版的分区软件在硬盘上划分出两个主分区,扩展分区任意。主分区可以有多个,但只能有一个处于活动状态,另一主分区将自动处于隐藏状态。为方便后面的叙述,现设两主分区的卷标分别是win32和win64。

步骤2:用分区魔术师使win32分区处于活动状态,正常安装32位windows xp。安装时一定要让另一主分区处于隐藏状态。

步骤3:用分区魔术师使win64分区处于活动状态,同时隐藏win32分区,在win64分区下安装64位windows xp,安装方法与简体中版的32位windows xp没什么两样。

注意:在一个主分区下安装系统时,一定要让另一主分区处于隐藏状态,独立多系统成败的关键全系于此。以上安装法只是一种思路,也可通过调整原系统分区大小将其分割一块出来,再将分割出来的部分建成主分区以安装64位windows xp。

步骤4:多系统的切

在任一系统下安装完全版的分区魔术师8.0,在其安装目录下找到以下两个文件:pqbw.exe和pqbw.rtc,再将其拷贝到任一扩展分区的一个新建目录下

提示:在64位windows xp下,分区魔术师的安装目录默认是“c:program files (x86)powerquestpartitionmagic 8.0”,在32位windows xp下是“c:program files powerquestpartitionmagic 8.0”。如果不是完全版的,可能找不到以上两文件。

双击pqbw.exe,显然,两个主分区都已被软件识别出来了。从“status:”下可看出,win32分区处于活动(active)状态,该分区下的操作系统处于运行状态,如果此时单击选中另一分区即win64,同时选中“restart now(马上重启)”,再单击ok,当前系统会立即关闭并重新启动到64位windows xp下。由于这两个文件已拷贝到扩展分区,所以无论启动到哪一系统下都能找到并运行它。

由于只能有一个主分区处于活动状态,另一分区默认地处于隐藏状态,不管启动到哪一系统下,都只能有一个主分区的盘符被分配为c盘,后面的扩展分区在磁盘管理器下显示为d盘、e盘等,可共享扩展分区下的数据。如果为维护方便,手动将两分区都设置为非隐藏状态,也只能启动到活动主分区上的操作系统,另一主分区的盘符将排到扩展分区之后。

it.com.cn

掀开64位的底牌

1992年2月,compaq公司在业界首推名为alpha的64位中央处理器,主频创记录地达到了200mhz。而sun公司的ultrasparciii、ibm公司的power 5以及apple公司的g5等面向64位计算的处理器也纷纷出台,intel也早在2001年就与hp合作开发了基于ia-64架构的itanium处理器。如同一种产品在市场上获得普及而非由少数用户拥有的时候,我们才能真正将其列归主流一样,只有当64位技术为个人用户广泛应用的时候,我们才能够认为64位时代真正来临。随着amd在全球抢先投放其面向个人用户的64位处理器开始,intel在一年之后也以自己的64位处理器回应,从而真正拉开了64位计算时代的大幕。

x86平台64位处理器大事记:

★2003年4月22日,amd发布了基于amd64技术的opteron处理器。该处理器即是amd一直以代号“大锤”进行研发的项目产物,可以同时兼容64位和32位应用。

★2004年2月的idf 2004上intel正式展示了其代号为nocona的64位至强处理器,同年8月4日,面向个人电脑的64位处理器pentium 4 f推出。

★2004年10月5日举行的微处理器论坛,威盛电子公布了其代号为isaiah的64位处理器,该处理器将于2006年上半年投产。

64位时代的5道门槛

随着intel全面发布了自己的64位中央处理器,我们已经可以感受到64位时代的呼吸了。但是现在就开始欢呼雀跃似乎为时尚早,系统平台的过渡通常并非坦途。远的按下不表,单说16位向32位的过渡,也是在兼容16位应用的前提下经过了多年的发展才逐渐确立了32位应用的主流地位,并一直演化出32位一统天下二十年的大好江山。如今64位想重复32位的老路,颠覆32位的统治地位,无疑将面临很多阻挠。我们就来看看在向64位时代迈进的道路上,需要跨过哪些门槛。

门槛1:硬件驱动问题

现在amd和intel已经开始在市场上大量投放64位处理器,而其他一些个人级处理器厂商也在积极动作。但是一台计算机并非只有一个处理器就能运行,它还需要大量周边设施的辅助。由于目前进行过的所有测试都表明在64位操作系统中运行64位应用程序比运行32位应用程序要更加高效,所以用户也应该尽可能在自己的操作系统中安装64位的驱动程序。而且根据从微软获得的信息,32位的驱动程序是无法在64位windows操作系统中使用的。

现在硬件产品多如繁星,不可能所有的产品都具备64位驱动程序供用户使用。目前单就主板来说,市场上就有成百个品牌在供应产品,而能够生产其他配件的厂商更是数不胜数。相对较大规模的厂商具有比较良好的技术研发能力,而一些依靠降低成本价格进行竞争的小厂商就很难保证附属程序的研发了。在这种情况下,相对实力较弱的厂商通常会使用元件附带的公版驱动,甚至根本不提供经过验证的与产品匹配的驱动。所以在使用64位硬件平台的用户,应该特别注意自己现在购买的硬件是否带有针对64位平台的驱动程序。并且在可能的情况下,尽量选择大厂的产品,以免无法充分发挥硬件设备的性能。

在新购设备这一方面问题还不是特别严重,对于我们之前购买的设备来说问题可就没那么轻松了。毕竟很多用户只通过更换主板和处理器进行升级,而非购买整套配件进行升级或者购买整机。一般相对核心的部件对于这个问题受到的影响较轻,而外设型的设备所受波及就更加严重,例如打印机、扫描仪等。现在有大量的用户仍在使用几年前购买的打印机,甚至某些产品的型号已经投产了超过5年的时间,有成百万的用户。在这种情况下,硬件厂商的责任不仅仅在于为新产品搭配64位驱动程序,而且还要考虑为所有仍在使用的旧有机型开发64位驱动程序。

在很多情况下,我们只能更多的寄希望于所使用的64位操作系统包含了正在使用设备的驱动程序。不过相信会有相当多的用户要为此烦恼。全球的硬件厂商都应该加快脚步,为他们的产品提供各种平台的64位驱动支持,这也是64位硬件大范围普及的一个重要前提。目前已经有一些厂商走在了前面,例如罗技已经表示在今年6月份推出其产品的64位驱动程序,尽管其大部分设备不使用驱动也可以很好的在64位操作系统下使用。

门槛2:缺乏应用程序

除了硬件方面的问题之外,应用程序方面的情况也不是特别乐观。虽然现在很多32位的应用程序都可以使用兼容模式运行在64位模式下,但是总体来说,64位应用程序仍处于严重缺乏的境地。我们就目前已经确认的信息,来概览一下重要软件的64位版本情况。

office办公套件

占有市场统治地位的微软office套件正在筹划64位版本,在32位版本的office 12推出后将很快推出64位版本的office 12。但是据目前的情况看来,office 12的推出时间很可能会是2006年的年中或者年末。届时微软不但面临着office套件64位化的问题,还需要进一步将office与其它的微软系统整合以及推出更多新功能,因为office 2003版本相对前面版本的office改进太少已经为不少激进的用户所诟病。

开放源代码的open office套件虽然没有明确推出64位的版本,但是在64位linux操作系统上确实可以正常的运行该办公套件。我们认为开源的套件对于64位的支持应该相对比较简单,因为我们可以很容易的自己进行编译和部署套件的工作。

服务器软件

web服务器方面,除了windows服务器系统自带的iis之外,另一个主要的web服务器软件apache也提供了自己的64位版本,但是目前还没有看到apache在windows平台上有64位版本发布。就运行速度而言,64位的apache在同等级别的硬件平台上相对于32位的apache有一定的提升。而且我们相信64位技术会给apache的性能带来更大的收益,毕竟web服务器软件对内存的要求是相当高的。

数据库服务器方面,微软的sql server已经提供了64位支持。在2005年的5月,微软发布了sql server的sp4补丁包,使用该补丁包用户将能够在64位平台上运行基于sql server的应用程序。支持64位x86硬件平台的64位商业数据库还包括ibm的db2和oracle。而mysql,这个最流行的开源数据库系统,更是早在2004年初就已推出了基于hp-ux和itanium 2处理器的64位版本,其对64位平台的支持还是相当全面的。相对来说,数据库服务器对64位技术的支持是相对较好的,毕竟数据库应用需要海量的存储空间。

工具软件

目前工具软件厂商还很少推出专门针对64位平台的版本,但是在微软64位操作系统上,影音播放、图片浏览、文件下载等常用的32位工具软件都能够较好的运行,而对于linux等将应用程序打包发布的操作系统,各种工具软件也能够正常工作。

以上只是描述了很小一部分软件的64位版本应用情况。综合来看,大部分软件厂商还没有推出针对64位平台的产品版本,所以说目前可供用户使用的纯64位应用还非常稀缺。大家可以查询所需使用软件的官方网站,进一步了解64位版本的发布情况。

门槛3:兼容性问题

从32位到64位,如何能够平稳的完成又一次计算平台的巨大变迁?回首历史,x86架构经历了8位到16位、16位到32位等数次变革。离我们最近的一次也是影响最深远的一次就是从16位到32位的平台转换。在这次影响久远的过渡之中,我们的主流中央处理器由286演变为极具变革意义的386,pc开始成为信息时代舞台上的主角。

因为在当时16位应用居于统治地位,硬碰硬式的革命即使成功也会损失惨重。所以x86架构处理器的生产商极为明智的选择了一条兼容16位处理器,逐步推广32位处理器的发展路线。当兼容16位应用的32位处理器上市之后,用户惊喜地发现这种处理器同样能够非常顺利地运行16位应用程序,而且其运行速度大大超过当时的16位处理器。在这种情况下,购买新机的用户当然对性能更好而且还能够在未来运行32位应用的32位处理器情有独钟,并且带动了大量准备升级计算机的用户投向32位阵营。

正确的策略赋予了32位变革足够的初始动能,当雪球越滚越大之后,终于使32位接替16位成为必然。在此期间,信息产业中的各个行业获得了充分的时间使自己向32位技术进行过渡,这一方面保证了过渡的平稳,另一方面也为32位技术打下了扎实的根基。值得一提的是,在这个迁移过程的同时,还出现了一种被称为risc的架构。

平心而论,risc架构从技术层面要比x86架构更加优秀。但是由于与占据了极大市场份额的x86架构不兼容,所以无法被大众所接受,越来越被挤向高端市场,最终成了一种曲高和寡的技术。从这段历史我们不难看出,在发生深层次技术平台迁移的时候,往往由于涉及面过广,而无法迅速的完成转变。只有很好的顾及旧有系统的价值,以自然的方式平稳地引发需求,才能获得最大限度的成功。

历史总是惊人相似,我们相信32位技术向64位技术的转化也是如此。amd也是选择了在64位技术的基础上兼容32位技术的战略,从这一年多的市场反应来看可以充分说明amd的睿智。微软也顺应时势的在64位windows xp中集成了wow(windows-32-on-windows-64)子系统,用于提供32位应用与64位应用的兼容。现在剩下的问题就是,目前这些主力厂商所提供的兼容性,是否能够满足应用的要求呢?我们在个人用户最常用的windows平台下针对兼容性问题进行了一系列的实验,大家可以根据实验的结果得出自己的答案。

在我们的测试中,下列程序可以正常的在64位windows系统中工作,没有发现任何问题:

文档处理 microsoft office 2000/2003、adobe acrobat 7.0、ultraedit 11

图像处理 adobe photoshop cs、paintshop pro 9、coreldraw 12;firework mx 2004

三维制作 3d studio max 6、maya 6.5

光盘处理 ahead nero 6、ultra iso 7、magiciso

网页制作 dreamweaver mx 2004、flash mx 2004

网页浏览 firefox 1.2、opera 8

媒体播放 media player classic、power dvd 6、quicktime 6.5

系统工具 partition magic 8、winace v2.6、jre 1.5;vmware 5

即时通讯 msn messenger 7.0、icq 5

文件下载 emule 4.6a

游戏软件 魔兽争霸3;星际争霸

第二个部分是能够完成基本的工作但是存在一些问题的软件。

winrar 3.5和winzip 9.0都可以正常工作,但是问题在于右键菜单中的快捷选项无法正确加载。我们估计原因在于这些加载项只能工作在32位的explorer环境中,估计其它利用该技术修改右键菜单的软件也会受到影响。另外,一些老版本的acrobat程序需要使用32位的驱动程序,所以不能使用打印pdf文档的功能。另外我们还发现,在安装office 2003 sp1的时候会显示一组错误消息,但是对使用不造成任何影响。

无法工作的应用软件:

所有使用32位底层驱动的软件无法顺利的在64位操作系统中。大部分32位防病毒软件都应用windows底层驱动进行病毒监控,所以都无法正常工作。个人防火墙软件也是如此,例如zonealarm和sygate的防火墙软件就无法在64位系统下工作。而我们能够找到的所有虚拟光驱软件都无法执行。

一个让我们比较意外的情况是微软的virtual pc 2004虚拟机软件也无法在64位windows上运行,要知道他的主要竞争对手vmware可是能够运行的,可能是virtual pc对windows的底层进行了一些调用。还有很多微软的套件无法在64位windows下运行,希望微软尽快推出64位版本吧。

门槛4:开发工具问题

64位应用软件的缺乏,同样需要开发工具厂商的投入。只有64位开发环境达到了足够的成熟度,程序员才会有学习64位环境软件开发的热情。64位处理器的字长从32位提升到64位,使内存地址范围大量扩充,内存的容量、处理速度和精度等指标随之大幅提升。在32位系统下,一旦数据处理量及会话连接突破一定界限之后,就非常容易出现系统崩溃。所以在高端应用领域,一直是64位系统的天下。

intel虽然在高端推出了安腾处理器,但是由于所能运行的应用软件相对较少,一直没有能够有效地占据市场。如今x86架构的处理器开始投放市场,所有立足于x86架构的厂商当然希望用户可以继续有丰富的软件可用。想要在64位平台上开发软件,首先要有完善的编译器软件。因为目前绝大多数主流的高级编程语言都是编译式的,如果没有高质量的编译器,就很难开发出性能优异的软件程序。

以c语言编译器来说,除了可以从intel这样的处理器厂商处获取之外,还可以使用gcc提供的开放源代码的64位版本编译器。

凡事总有例外,并不是所有的主流开发平台都是基于编译技术的,例如java。java也会将源代码编译为可在虚拟机中执行的字节码,但是由于java并不针对处理器指令集编译生成平台本地化的代码,所以在严格意义上不应将其划归为编译性语言。在使用虚拟机技术的编程平台中撰写的源代码,是不受平台限制的。以java为例,在32位平台下生成的字节码是可以直接运行在64位平台上的,只要运行的环境中安装了版本匹配的java运行时环境(jre)。

另外,java开发平台为了实现在不同字长环境中运行java程序,对数据类型也做了相应的处理,程序员并不会为这些问题花费太多的心思。谈到开发我们无法忽略微软的存在,毕竟全球大部分计算机都在运行微软的操作系统。由于微软现在主推的.net计算平台使用了和java类似的技术,所以严格来说从32为转换到64位对.net程序也没有什么影响。我们需要关注的只是微软的操作系统是否足够完善以及他们什么时候才会发布完整的开发库支持。

现在微软已经发布了visual studio .net 2005的beta版本,据称这款微软最新的开发工具中提供了64位开发的更多支持。这两个开发平台所具有的这种特性对程序员具有相当的吸引力,因为这意味着程序员可以使用同样的知识基础同时为不同的系统平台开发程序。而且这对企业移植应用程序带来了巨大的便利,如果企业选择的开发环境是java或者.net的话。这从侧面说明了为什么java和.net是企业级开发市场的主宰力量,选择了投入这两个阵营的企业现在一定会满意自己的决策。

门槛5:实施成本问题

it行业一个常用的衡量尺度是tco,即总体拥有成本。这个衡量方式的主要原则在于我们在实施it设施的时候不但要考虑显性成本,同时也要重视隐性成本。以32位向64位迁移来说,隐性的成本包括了对原有设备的影响、用户知识结构的变化、不同平台的整合以及程序移植等等。应该说目前x86架构的64位系统从一定程度上解决了这些问题。

amd从最开始就选择了兼容32位应用的策略推广其64位处理器,而intel在百般权衡之后,也尾随amd的脚步走上了同样的道路。在这种情况下,32位和64位的平台过渡工作将省却很多麻烦。但是尽管有这些有利条件,平台过渡仍是一个非常巨大的工程,会涉及到组织的方方面面。这就需要所有参与其中的人与过渡工作紧密配合,如果没有积极的态度和严谨的心态,会带给it设施的运作造成无可估量的损失。

另外,我们在注重tco的同时,也不能忽略系统的扩展能力。就是说,我们不但要注重短期的效益,还要估算长期的利益。只将目光集中于眼下的成本节省,代价很可能是在将来付出更大的成本。特别是在相对大型的计算环境中,一定要制订好详细的迁移计划,评估各种应用的重要性等级和对64位系统平台的需求,开展足够的培训和教育工作,这样才有可能成功的完成32位平台向64位平台的过渡。

64位硬件的安全轴心

64位技术的普及化,除了能够带给个人用户性能方面更好的体验之外,还提供了更多创新的空间。我们现在就来看看对于个人安全防护来说最重要的防病毒和防火墙功能,64位硬件平台给了我们怎样的答案。

64位处理器的防毒功能

在传统的防病毒领域,我们大多使用防病毒软件处理计算机病毒问题。amd推出的64位处理器都提供防病毒功能,而intel不只在64位处理器中集成了这样的功能,其很多32位处理器也可以提供防毒功能。两者内置的防病毒技术都是使用被称为nx bit的一种防止内存溢出的机制来实现的。

我们知道,目前的大部分恶意攻击都是利用某种方式使目标机器执行攻击者想要执行的代码,而这通常是由内存缓冲区溢出的形式来完成的。以近年来大肆传播的网络蠕虫病毒来说,其主要的感染行为就要依赖这种技术。所以在理论上,如果我们能够防止发生内存溢出,就能大大降低系统的安全威胁。nx bit就是针对这类问题所推出的解决方案。

抛开技术实现的细节不表,nx bit是通过怎样的机制完成工作的呢?非法的内存溢出通常在数据中植入了可执行的代码,这些恶意代码在溢出时会被推入执行队列。nx bit在映射内存的物理地址和逻辑地址的管理机制中添加nx位,当cpu提取指令的过程中,一个生效的nx位被执行的话操作系统将会收到报错。利用这个机制操作系统可以将不应执行的内存区域标记为nx,这样就可以阻止很多恶意程序的破坏行为。

目前amd和intel的cpu防毒技术都是针对windows xp sp2所提供的dep(date execution prevention)进行设计的。在该操作系统中,我们可以针对单个程序设置其是否受到这种机制的保护。需要注意是,基于nx bit的防范措施只能避免部分恶意行为的侵扰,而不能解决所有的安全问题。

攻击者仍然可能猜出可以执行代码的位置,只是难度要有所增加而已,而没有正确编写的应用程序和系统软件,仍旧会留下安全隐患。毕竟究其本质,nx bit只是在硬件层提供了一个保护机制而已。而任何安全设施没有被正确使用的话,都不会获得正确的结果。

主板集成的硬件防火墙

为了给单机用户提供更强大的安全防护能力,也为了为系统减轻负担,nvidia在推出其第一代64位主板控制芯片nf3 250gb时,在其中集成了硬件防火墙功能。这项功能随后又被加入到nf2 ultra 400 gb中,之后推出的nf4 ultra也包含了这项功能。以nf4 ultra为例,其防火墙管理软件被集成于驱动程序之中。如果决定使用该防火墙,可先将当前机器上所安装的防火墙软件禁用。

尚书7号怎么用~

尚书7号怎么用~
本软件系统是应用ocr(optical character recognition)技术,为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。
目前,许多信息资料需要转化成电子文档以便于各种应用及管理,但因信息数字化处理的方式落后,不但费时费力,而且资金耗费巨大,造成了大量文档资料的积压,因此急需一种快速高效的软件系统来满足这种海量录入需求。本软件系统正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。
●识别字符
简体字符集:国标gb2312-80的全部一、二级汉字6800多个。
纯英文字符集。
简繁字集:除了简体汉字外,还可以混识台湾繁体字5400多个以及香港繁体字和gbk汉字。
●识别字体种类
能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。
●识别字号
初号 小六号字体。
●表格识别
可以自动判断、拆分、识别和还原各种通用型印刷体表格。
通过以上各点,可以看出,尚书七号ocr系统确实是一个提高文档办公效率的好帮手。

简单的说,就是有些pdf格式的文件,当事人是用图表的格式发送形成的,这类pdf文件,打开后不能把里面的文字内容复制粘贴到word文件里,用尚书7号就可以解决这个问题了。
我经常用这个。还是蛮好用的。只是有些地方尚书7号也不一定可以识别,最好还是自己检查对照一下,查漏补误。

传真机打印报告去除

传真机打印报告去除
可以打印以下各种报告
1,xmit verify打印最近传输的传输验证报告
2,help list打印帮助列表以使您迅速获知如果快速设定设备3,quick-dial(速拨)按数字顺序,列出存储在但拨号或速拨号内存中的名称和号码。
4,fax journal列出最近拨入和拨出的传真信息(tx表示发送,rx表示接收)
5,user setting(用户设置)列出您的设置。
如果打印报告――①按“报告”键,②按“↑”或“↓”选择所需打印的报告,然后按“功能设定”键。或者输入想要打印的报告编号,例如:按数字2将打印帮助列表。
一般来说,你没按打印报告它就不会打印出来。要不你按出厂设置吧,一切数据先清零!

如何将扫描的图片文章转换成word文档?

如何将扫描的图片文章转换成word文档?
扫描文字,结果以图片格式(.bmp)存入电脑。然后使用orc识别系统进行转换,最终用word进行修改编辑。下面教你如何使用orc:
ocr是英文optical character recognition的缩写,翻译成中文就是通过光学技术对文字进行识别的意思, 是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。现在ocr主要是指文字识别软件,在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和ocr软件一直是分开销售的,专业的ocr软件谠缧┦焙蚵舻帽壬�枰腔挂�蟆k孀派�枰欠直媛实奶嵘��ocr软件也在不断升级,扫描仪厂商现在已把专业的ocr软件搭配自己生产的扫描仪出售。ocr技术的迅速发展与扫描仪的广泛使用是密不可分的,近两年随着扫描仪逐渐普及和ocr技术的日臻完善,ocr己成为绝大多数扫描仪用户的得力助手。
一、ocr技术的发展历程
自20世纪60年代初期出现第一代ocr产品开始,经过30多年的不断发展改进,包括手写体的各种ocr技术的研究取得了令人瞩目的成果,人们对ocr产品的功能要求也从原来的单纯注重识别率,发展到对整个ocr系统的识别速度、用户界面的友好性、操作的简便性、产品的稳定性、适应性、可靠性和易升级性、售前售后服务质量等各方面提出更高的要求。
ibm公司最早开发了ocr产品,1965年在纽约世界博览会上展出了ibm公司的ocr产品――ibml287。当时的这款产品只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。20世纪60年代末,日立公司和富士通公司也分别研制出各自的ocr产品。全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后nec公司也推出了同样的系统。到了1974年,信函的自动分拣率达到92%左右,并且广泛地应用在邮政系统中,发挥着较好的作用。1983年日本东芝公司发布了其识别印刷体日文汉字的ocr系统ocrv595,其识别速度为每秒70~100个汉字,识别率为99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作。
中国在ocr技术方面的研究工作相对起步较晚,在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末开始进行汉字识别的研究。1986年,国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文ocr软件的开发工作。至1989年,清华大学率先推出了国内第一套中文ocr软件--清华文通th-ocr1.0版,至此中文ocr正式从实验室走向了市场。清华ocr印刷体汉字识别软件其后又推出了th-ocr 92高性能实用简/繁体、多字体、多功能印刷汉字识别系统,使印刷体汉字识别技术又取得重大进展。到1994年推出的th-ocr 94高性能汉英混排印刷文本识别系统,则被专家鉴定为“是国内外首次推出的汉英混排印刷文本识别系统,总体上居国际领先水平”。上个世纪90年代中后期,清华大学电子工程系提出并进行了汉字识别综合研究,使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具有代表性的成果是th-ocr 97综合集成汉字识别系统,它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。几年来,除清华文通th-ocr外,其它如尚书sh-ocr等各具风格的ocr软件也相继问世,中文ocr市场稳步扩大,用户遍布世界各地。
可以说目前印刷体ocr的识别技术已经达到较高水平。ocr产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号,发展成为可以自动进行版面分析、表格识别,实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息快速录入工具。对印刷体汉字的识别率达到98%以上,即使对印刷质量较差的文字其识别率也达到95%以上。可识别宋体、黑体、楷体、仿宋体等多种字体的简、繁体,并且可以对多种字体、不同字号混合排版进行识别,对手写体汉字的识别率达到70%以上。特别是我国的汉字ocr技术经过十几年的努力,克服了起步晚、汉字字符集异常庞大等困难,单字的识别速度(指在单位时间内所完成的从特征提取到识别结果输出的字数)可以达到70字/秒以上。由于印刷体ocr汉字识别技术已经比较成熟,所以ocr产品被广泛地应用在新闻、印刷、出版、图书馆、办公自动化等各个行业。
专业型ocr产品多是面向特定的行业,即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等等。这种面向特定行业的专业型ocr系统,格式较为固定,识别的字符集相对较小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点,比如邮件自动分拣系统等。
手写文稿的识别直到1996、1997年才开始有产品问世,而且是作为印刷文稿识别产品的一项附加功能提供的。由于人写字的习惯千差万别,实现自由手写体识别相当困难,所以手写体ocr技术的使用领域是联机手写体识别,即人一边写,计算机一边识别,是一种实时识别方式。
二、ocr的基本原理
简单地说,ocr的基本原理就是通过扫描仪将一份文稿的图像输入给计算机,然后由计算机取出每个文字的图像,并将其转换成汉字的编码。其具体工作过程是,扫描仪将汉字文稿通过电荷耦合器件ccd将文稿的光信号转换为电信号,经过模拟/数字转换器转化为数字信号传输给计算机。计算机接受的是文稿的数字图像,其图像上的汉字可能是印刷汉字,也可能是手写汉字,然后对这些图像中的汉字进行识别。对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,再通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。其中文字识别是ocr的重要技术。
1.ocr识别的两种方式
与其它信息数据一样,在计算机中所有扫描仪捕捉到的图文信息都是用0、1这两个数字来记录和进行识别的,所有信息都只是以0、1保存的一串串点或样本点。ocr识别程序识别页面上的字符信息,主要通过单元模式匹配法和特征提取法两种方式进行字符识别。
单元模式匹配识别法(pattern matching)是将每一个字符与保存有标准字体和字号位图的文件进行不严格的比较。如果应用程序中有一个已保存字符的大数据库,则应用程序会选取合适的字符进行正确的匹配。软件必须使用一些处理技术,找出最相似的匹配,通常是不断试验同一个字符的不同版本来比较。有些软件可以扫描一页文本,并鉴别出定义新字体的每一个字符。有些软件则使用自己的识别技术,尽其所能鉴别页面上的字符,然后将不可识别的字符进行人工选择或直接录入。
特征提取识别法(feature extraction)是将每个字符分解为很多个不同的字符特征,包括斜线、水平线和曲线等。然后,又将这些特征与理解(识别)的字符进行匹配。举个简单的例子,应用程序识别到两条水平横线,它就会“认为”该字符可能是“二”。特征提取法的优点是可以识别多种字体,例如中文书法体就是采用特征提取法实现字符识别的。
多数ocr应用软件都加入了语法智能检查功能,这种功能进一步提高了识别率。它主要通过上下文检查法实现拼写和语法的纠正,在文字识别时,ocr应用程序会做多次的上下文衔接性检查,根据程序中已经存在的词组、固定的用词顺序,对应的检查字符串的用词字。比较高级的应用软件会自动用它“认为”正确的词语替换错误词语,纠正语句意思。
2.文字识别的几个步骤
文字识别包括以下几个步骤:图文输入、预处理、单字识别和后处理等。
(1)图文输入
是指通过输入设备将文档输入到计算机中,也就是实现原稿的数字化。现在用得比较普遍的设备是扫描仪。文档图像的扫描质量是ocr软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数,是保证文字清楚、特征不丢失的关键。此外,文档尽可能地放置端正,以保证预处理检测的倾斜角小,在进行倾斜校正后,文字图像的变形就小。这些简单的操作,会使系统的识别正确率有所提高。反之,由于扫描设置不当,文字的断笔过多可能会分检出半个文字的图像。文字断笔和笔画粘连会造成有些特征丢失,在将其特征与特征库比较时,会使其特征距离加大,识别错误率上升。
(2)预处理
扫描一幅简单的印刷文档的图像,将每一个文字图像分检出来交给识别模块识别,这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作,包括图像净化处理,去掉原始图像中的显见噪声(干扰)。主要任务是测量文档放置的倾斜角,对文档进行版面分析,对选出的文字域进行排版确认,对横、竖排版的文字行进行切分,每一行的文字图像的分离,标点符号的判别等。这一阶段的工作非常重要,处理的效果直接影响到文字识别的准确率。
版面分析是对文本图像的总体分析,是将文档中的所有文字块分检出来,区分出文本段落及排版顺序,以及图像、表格的区域。将各文字块的域界(域在图像中的始点、终点坐标),域内的属性(横、竖排版方式)以及各文字块的连接关系作为一种数据结构,提供给识别模块自动识别。对于文本区域直接进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。
(3)单字识别
单字识别是体现ocr文字识别的核心技术。从扫描文本中分检出的文字图像,由计算机将其图形、图像转变成文字的标准代码,是让计算机“认字”的关键,也就是所谓的识别技术。就像人脑认识文字是因为在人脑中已经保存了文字的各种特征,如文字的结构、文字的笔画等。要想让计算机来识别文字,也需要先将文字的特征等信息储存到计算机里,但要储存什么样的信息及怎样来获取这些信息是一个很复杂的过程,而且要达到非常高的识别率才能符合要求。通常采用的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析。
中国汉字常用的就有几千,识别技术就是特征比较技术,通过和识别特征库的比较,找到特征最相似的字,提取该文字的标准代码,即为识别结果。比较是人们认识事物的一种基本方法,汉字识别也是通过比较找出汉字之间的相同、相似、相异,把握其量和质的关系,以及时间与空间的关系等。对于大字符集的汉字一般采用多级分类,多特征、全方位动态匹配求相似集,以保证分类率高、适应性强、稳定性好;细分类重点在于对相似集求异匹配、加权处理、结构判别,定量、定性分析,以及前后联接词的关系,最后进行判别。汉字识别实质上是比较科学或认知科学在人工智能方面的应用,其关键技术是识别特征库。计算机有了这样的一个特征库,才能完成认字的功能。
在图像文档的版面中,除了有文字、图片,有时还会有表格存在,为了使识别后的表格数字化,需要在版面分析过程中,对表格域进行特殊的处理,它包括对表格线的结构信息的提取,对表格内文字域的分检,完成对表格线和对文字域的识别,并根据表格线的数字化生成不同的文件格式。由于文档中的表格随意性大,格式多样,有封闭式的,也有开放式的,特别是表格中的斜线,给表格分析造成一定的困难。
(4)后处理
后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配,即将单字识别的结果进行分词,与词库中的词组进行比较,以提高系统的识别率,减少误识率。
汉字字符识别是文字识别领域最为困难的问题,它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过95%,为了进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。清华大学在此方面的研究成果突出,已经成为世界上的最具权威的机构之一。目前,清华紫光的全系列扫描仪中都配装了清华ocr千禧版软件,它在识别率、表格识别甚至规范手写体的识别方面,均达到了较高水平。
三、ocr文字识别技巧
在最近几年中,ocr识别技术随着扫描仪的普及得到了飞速的发展,扫描、识别软件的性能不断强大并向智能化不断升级发展。但是要想快速地获取正确的扫描结果,得到高效率的文字录入,必须认真学习有关知识,结合实践经验,摸索出自己的全套解决方案。有时我们在作文字识别工作时识别率非常低,根本达不到软件所说的95%以上,请先不要责怪硬件或软件,其实这是没有掌握好扫描及ocr识别技巧的原因。
下面是文字识别操作中经常用到了一些方法和技巧。
1.分辨率的设置是文字识别的重要前提。一般来讲,扫描仪提供较多的图像信息,识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确率就越高。选择300dpi或400dpi分辨率,适合大部分文档扫描。注意文字原稿的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然会得不偿失。下面是部分典型设置,仅供参考。
(1)1、2、3号字的文章段,推荐使用200dpi。
(2)4、小4、5号字的文章段,推荐使用300dpl
(3)小5、6号字的文章段,推荐使用400dpl
(4)7、8号字的文章段,推荐使用600dpi。
2. 扫描时适当地调整好亮度和对比度值,使扫描文件黑白分明。这对识别率的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。进行识别前,先看看扫描得到的图像中文字质量如何,如果图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,说明亮度值太小了,应该增加亮度值在试试;如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大了,应减小亮度后再试试。
3.选好扫描软件。选一款好的适合自己的ocr软件是作好文字识别工作的基础,一般不要使用扫描仪自带的oem软件,oem的ocr软件的功能少、效果差,有的甚至没有中文识别,经过比较,我认为清华紫光ocr2003专业版和尚书ocr6.0文本自动识别输入系统的识别能力与使用功能更突出一些。再选一个图像软件,ocr软件不是有扫描接口吗?为什么还找图像软件?第一,ocr软件不能识别所有的扫描仪;第二,也是最关键的,利用图像软件的扫描接口扫描出来的图像便于处理;一般选用photoshop。
4.如果要进行的文本是带有格式的,如粗体、斜体、首行缩进等,部分ocr软件识别不出来,会丢失格式或出现乱码。如果必须扫描带有格式的文本,事先要确保使用的识别软件是否支持文字格式的扫描。也可以关闭样式识别系统,使软件集中注意力查找正确的字符,不再顾及字体和字体格式。

参考: http://zhidao.baidu.com/question/27443880.html?fr=qrl3
您已连续签到 0 天,当前积分:0
  • 第1天
    积分+10
  • 第2天
    积分+10
  • 第3天
    积分+10
  • 第4天
    积分+10
  • 第5天
    积分+10
  • 第6天
    积分+10
  • 第7天

    连续签到7天

    获得积分+10

获得10积分

明天签到可得10积分

咨询客服

扫描二维码,添加客服微信