汉字识别技术研究.docx
- 文档编号:11518838
- 上传时间:2023-03-02
- 格式:DOCX
- 页数:29
- 大小:442.71KB
汉字识别技术研究.docx
《汉字识别技术研究.docx》由会员分享,可在线阅读,更多相关《汉字识别技术研究.docx(29页珍藏版)》请在冰豆网上搜索。
汉字识别技术研究
中国人民公安大学
毕业论文(设计)
题目汉字识别技术研究
学生姓名郭耀珅学号************
2006年级安全防范工程专业方向
安全防范与网络保卫大队06中队一区队
指导教师王蓉
教务处制
汉字识别技术研究
摘要:
本文主要在研究当前光学字符识别系统及相关识别技术的基础上,利用matlab编程语言设计了一套简单的相对具有较高识别率的汉字识别程序。
首先,将RGB图像转化为二值图像(即仅有黑白二种颜色的图像),而后经平滑处理,滤除混入的噪声,得到清晰完整的文字图像,其次,进行行字切分使整篇文字图像成为单个文字图像,最后提取汉字的横竖撇捺特征与现有的汉字特征库进行比较匹配从而进一步输出汉字的数码形式。
实验结果表明,本文研究的方法能够识别汉字,准确率较高。
关键词:
印刷体汉字识别;预处理;特征提取;特征匹配
ResearchonChineseCharacterRecognitionTechnology
Abstract:
Thisthesisstudiesontheopticalcharacterrecognitionsystemandcorrelativerecognitiontechnology,basedonthematlabprogramminglanguagedesignedasetofrelativelyhighrecognitionsimpleofcharacterrecognitionprograms.First,transformingRGBimagesintobinaryimage(onlyblackandwhitecolorimage),thenthesmoothfilteringde-noisingintermingledwiththenoiseofthetexttogetclear.Secondly,theimagesegmentationwords,theessaywritingasasinglewordimages,theimagesofChineseabandonedanyfinalextractingfeaturesofcharacterswithexistingisfeaturelibrarycomparedtofurtheroutputcharactersofthematchindigitalform.ExperimentalresultsshowthatthismethodcanbeusedtoidentifyChinesecharactersandprecise.
Keywords:
PrintChineseCharacter;Preprocessing;Characteristiccollecting;Characteristicmatching
1绪论
1.1汉字识别的研究背景与现实意义
据文献记载,印刷体汉字的识别最早可以追溯到60年代。
1966年,IBM公司发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。
70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平[1]。
此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。
但价格过于昂贵,没有得到广泛应用。
80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,识别率为99.88%,识别速度大于100字/秒,代表了当时汉字识别的最高水平。
80年代中期以来,以软件为主并使用通用高档微机的产品走向市场。
汉字作为中华民族文明发展的信息载体,已有数千年的历史,也是世界上使用人数最多的文字,它记录了璀璨的民族文化,展示了我国独特的思维和认知方法。
随着计算机技术的推广应用,尤其是互联网的日益普及,人类越来越多地以计算机获得各种信息,大量的信息处理工作也都转移到计算机上进行。
因此,对于我国而言,在日常工作尤其是和我们接触颇多的警务工作中,存在着大量的文字信息处理问题,因而将文字信息快速输入计算机的要求就变得非常迫切。
现代社会的信息量空前丰富,其中绝大部分信息又是以印刷体汉字的形式进行保存和传播的,这使得以键盘输入为主要手段的计算机输入设备变得相形见绌,输入速度低已经成为信息进入计算机系统的主要瓶颈,影响着整个系统的效率,值得一提的是,这对于处理案件等警务工作的影响尤为明显[2]。
因此,要求有一种能将文字信息高速、自动输入计算机的方法。
这种快速,准确的自动处理方式将在很大程度上推动我国信息化的发展进程,对公安工作也有着相当深远的意义。
1.2我国汉字识别技术发展历史与现状
我国对印刷汉字识别的研究始于70年代末、80年代初,大致可以分为三大阶段[2]:
第一阶段,从70年代末期到80年代末期,主要是算法和方案探索。
第二阶段,90年代初期,汉字识别技术由实验室走向市场,初步实用。
第三阶段,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。
同国外相比,我国的印刷体汉字识别研究起步较晚。
中国是使用汉字最久远和最广泛的国家。
因此,能否在汉字识别方面占据领先的位置是中国科技实力的一项至关重要的体现,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。
因此针对于我国当前的状况而言,实现在高速率,高效率的汉字识别技术方面的突破是目前的棘手问题,虽然我国印刷体汉字识别技术的发展和应用已经有了长足进步:
从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。
各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到98%以上。
但是就汉字本身属性而言,仍然面临着以下方面的困难:
(1)类别较大
目前我国常用汉字约3000~4000个。
国标GB2312一80常用汉字字符集中共有,6763个常用字,分为两级。
第一级3,755个汉字,使用频度为99.7%,第二级有3,008个汉字,两级汉字总使用频度为99.99%,识别系统一般应能正确识别这些常用字,才能满足实际应用的需要。
目前的研究目标一般都着眼于解决国标一级3755个汉字,即使是这样,汉字识别也属于大类别数的模式识别问题。
(2)结构复杂
汉字是一种结构性很强的文字,每个汉字都具有特定分布的若干笔划构成,笔划是汉字最基本的组成部分,汉字也可以看成是由部件组合而成的,部件是笔划有意义的组合,一般称之为偏旁、部首或字根。
笔划和部首的不同排列组合,构成了表达不同含义的结构异常复杂的汉字字符。
(3)相似字多
部分汉字字符之间只存在着很细小的差别,具有相同笔划数目的汉字字符之间的差异有的表现为某一个笔划位置或形态的微小变化,又比如“干”和“于”仅在字符的下部有一细微的差别。
即使由人来辨认印刷体的这些汉字,在无上下文信息的帮助时,也很容易出错[3]。
识别算法和系统必须能够正确判定这些细微的差异,否则就会发生错误。
当前,我国较为先进,也是应用较为广泛的汉字识别技术为汉王公司的汉王汉字识别软件,技术来自于清华大学丁晓青教授在模式识别、图像处理、文字识别方面的突破。
而且值得一提的是,我国的汉字识别方面已经有了一个相当成熟的技术空间。
1.3本文研究的主要内容
基于以上所述,本文将重点研究印刷体宋体汉字识别技术方面的相关技术,印刷体汉字识别技术主要分预处理、特征提取、匹配识别和后处理四部分。
本文对预处理和后处理部分只是做基础性的研究工作,将重点放在研究特征提取和匹配识别两部分。
因此本文一共将分五章论述所研究的内容
第一章,简要介绍印刷体汉字识别的研究背景,存在的问题,和本文的主要工作及章节安排。
第二章,详细的介绍了印刷体汉字识别研究历程,研究范围和分类,汉字识别的流程和方法(预处理,特征提取,特征匹配)。
第三章,阐述了印刷体汉字识别预处理的过程,详细论述了对整体文档图像的处理方法,包括图像的二值化、平滑去噪和行字切分的研究及实现。
以及后期的特征提取与特征匹配。
第四章,利用matlab编程方式实现汉字识别过程的仿真。
第五章,对本文工作的总结,以及对该项技术日后发展的展望。
2汉字识别技术的相关基础知识
2.1概述
印刷体汉字识别系统由输入设备、汉字识别模块和计算机硬、软件三部分组成。
核心部分是汉字识别模块部分,印刷体汉字识别的过程主要过程包括预处理、特征提取、特征匹配、识别后处理。
在本文中,将二值化,平滑去噪,文本行字切分都归为预处理。
汉字图像通过光电扫描仪,CCD器件等工具扫描成为二维图像信号(数码图像),该种信号在文本中以图片(jpg,bmp等格式)形式显现,而后通过本文所介绍的预处理,特征提取与匹配及相关后处理等实现汉字识别的过程,其系统流程框图如图1所示。
图1印刷体汉字识别系统框图[3]
经图
(1)的流程处理后可输出数码形式的汉字字符。
2.2汉字识别流程
2.2.1预处理
由于通过各种光电设备或者模数转换手段获得的汉字图像必定不可避免存在一些噪声干扰。
这将导致图像质量下降,也最终影响了整个系统的识别率。
因此在对汉字图像进行识别处理之前,对其进行预处理,也就是加载一个图像增强的过程,从而尽可能降低干扰因素,这也是非常有必要的。
本文所介绍的印刷体汉字识别技术的预处理主要由二值化,平滑去噪与行字切分等几方面组成[3][4]。
(1)二值化
将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理[5],二值化的主要目的是将汉字从图像中分离出来。
通常的方法为先确定像素的阈值,比较像素值和阈值的大小,从而确定为1或0,这里二值化阈值的选取较为关键。
若阈值取的过大.则保留的信息过多,其中许多杂点无用信息造成了对以后处理的干扰,若阈值取得过小,则丢失的信息过多,其中许多文字信息产生续断或丢失,造成最终文字提取分割的信息丢失。
如何确定此阈值的过程也就成了研究二值化算法的重点。
(2)平滑去噪
平滑化处理是图像增强中的一种技术,其目的有两个:
一是按特定的需要突出一幅图像中的有用信息,另一是为适应计算机处理的需要,消除汉字在输入数字化时所混入的噪声。
在图像的采样、数字化、量化过程中,由于输入转化器件及环境的影响,图像上一般会叠加各种各样的噪声,为让图像恢复本来面目,平滑去噪必不可少。
一个较好的去噪方法应该是既能消去噪声对图像的影响又不使图像细节变模糊。
常用的平滑滤波方法有中值滤波和均值滤波[6]。
本文将着重研究基于邻域平均法进行的均值滤波。
(3)行字切分
汉字切分的目的是利用字与字之间、行与行之间的空隙,将单个汉字从整个图像中分离出来。
汉字的切分分为行切分和字切分。
行切分是利用行与行之间的直线型空隙来分辨行,将各行的行上界和行下界记录下来[7]。
典型的算法是,从上到下,对二值汉字点阵的每行像素值进行累加,若从某行开始的若干累加和均大于一个试验常数,则可认为该行是一汉字文本行的开始,即行上界。
同理,当出现连续大约一个汉字高度的大累加和情况后突然出现一系列小累加和甚至零值时,判定为行下界。
字切分是利用字与字之间的直线型空隙来分辨字,将各字的左边界和右边界记录下来以确定切割的根据。
2.2.2特征提取
预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。
对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数己经不下百种。
但每种汉字特征的适用环境都有所不同,有的特征在一些情况下有很强的自动纠错能力,但在另外一些情况下却完全失去了效用。
例如,汉字特征点特征算法本身是一种比较简单、完善的特征提取算法。
在汉字图像满足清晰、无笔画连联、无断笔等细化要求时,是能够完全将汉字的各种特征点位置提取处理的;若汉字图像本身模糊不清,预处理工作也无法达到要求,这样再好的汉字特征点特征提取算法也无法提取正确的汉字特征点特征,已经获得的特征点特征一旦应用到汉字识别系统中去,将会极大地影响整个系统的实用性。
针对不同的系统需求,应该选择不同的汉字特征,进行优化特征组合,这样才能达到系统最佳识别效果。
所以选择哪种特征,如何组合特征将是汉字特征提取这一部分的重点研究领域。
如下介绍并分析一下常用的一些的可供提取的汉字特征。
(1)结构特征
①抽取笔画法
抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信息来进行汉字的联机识别,在印刷体和脱机印刷体识别中,由于笔画提取的困难,结果不是很理想。
②松弛匹配法
松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。
这种方法利用弹性吸收汉字的变形,一个字只用一个样本。
其缺点是操作速度较慢,计算量大。
(2)统计特征
①特征点
特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点(笔画)、白点(背景)作为特征来区分不同的字符。
特征点包括笔画骨架线的端点、折点、歧点和交点,汉字的背景也含有一定的区别于其它汉字的信息,选择若干背景点作为特征点,有利于提高系统的抗干扰能力。
其特点是能够大大压缩特征库的容量,对于内部笔画粘连字符,其识别的适应性较强、直观性好,但不易表示为矢量形式,匹配难度大,不适合作为粗分类的特征。
②笔段特征
汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。
利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。
其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。
当然,汉字的特征多种多样,各有各的优点、短处和不同的适用范围。
选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这就是本文需要研究的问题[8]。
2.2.3特征匹配与汉字识别
通过迭代运算,找出输入向量与模板向量各分量间的对应关系,然后再根据这一对应关系进行匹配。
首先根据输入向量各分量与模板向量各分量之间的相似度构成一个初始权值矩阵。
矩阵中各元素的值为相应分量之间的初始匹配概率,然后通过迭代运算对各个权值进行修正,并将其中趋近于零的值置为零,直至权值的变化趋于稳定,此时,可以认为权值矩阵中非零元素所对应的分量之间只有对应关系,然后根据这一对应关系计算输入量与该模板间的距离,重复上述过程。
求出输入量与每个模板间的距离,取其中距离最小的模板所代表的类别为识别结果。
松弛匹配法兼具统计方法和结构方法的特长。
由于它是根据总体的匹配程度来决定识别结果的,所以这一点它类似于统计方法,同时它在迭代中还把基元间位置关系等结构信息考虑在内,这一点又很像结构方法。
因此松弛匹配法在汉字识别中取得了很好的效果,它不仅可以用于特征点的匹配,而且还可以用于笔段、笔画和部件的匹配。
2.2.4后处理
后处理就是利用相关算法对识别后的汉字文本或者初级识别结果做进一步的处理,纠正误识的汉字,给出拒识的汉字,确定模棱两可的汉字。
汉字识别的后处理方法从用户的参与程度来说,可分为三类:
手工处理,交互式处理和计算机自动处理。
一般而言,后处理可以在相关编程过程中由计算机自动实现[7]。
2.3汉字识别模式
2.3.1结构模式识别
结构模式识别是早期印刷体文字识别研究的主要方法。
其主要出发点是印刷体文字的组成结构。
从构成上讲,印刷体文字是由笔划或更小的结构基元构成的。
由这些结构基元及其相互关系完全可以精确地对印刷体文字加以描述,就像一篇文章由单字、词、短语和句子按语法规律所组成一样。
所以这种方法也叫句法模式识别。
识别时,利用上述结构信息及句法分析的方法进行识别,类似一个逻辑推理器。
在实际应用中此方法面临的要问题是抗干扰能力差因为在实际得到的文本图像中存在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点,对比度差等。
2.3.2统计模式识别
统计决策论发展较早,理论也较成熟。
其要点是提取待识别模式的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。
印刷体文字的统计模式识别是将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。
统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。
不足之处在于细分能力较弱,区分相似字的能力差些。
本文主要介绍的是统计模式识别中的模板匹配法。
模板匹配也需要特征提取过程。
字符的图像将被作为特征,与特征库中的模板相比,相似度最高的模板类即为识别结果。
这种方法简单易行,可以并行处理。
3汉字识别系统
3.1汉字图像增强
3.1.1二值化处理
把汉字图形带灰度电平的数字信号处理成二值(0,1)的数字信号,称为汉字图形数字信号二值化(Binary)。
对灰度图像二值化能显著的减小数据存储的容量,降低后续处理的复杂度。
由于印刷体汉字识别只需要处理图像中的字型信息,对颜色等信息不做处理,所以二值化处理可以去掉不必要的信息,提高识别的速度。
二值化处理是汉字识别系统的首要步骤,二值化结果的质量将直接影响后续处理的效果,从而决定整个识别系统的性能指标。
因此,系统实现的首要步骤即为将文件资料扫描后的RGB图像资料通过matlab编程的方式实现向二值图像的转化。
由于汉字图像的目标和背景非常清楚,因此,本文将采用全局二值化方法,全局阈值法根据文本图像确定一个阈值。
在此,可引入索引色图像的概念,即对不同颜色进行编号,组成一个调色板,图像数据记录像素对应的调色板颜色的序号。
设原始图像的序号为f(x,y),在经历的图像灰度化的过程中在f(x,y)中找到一个灰度值T作为阈值,分割后的二值图像g(x,y)的灰度值大于T值时,则g(x,y)=255(即颜色为白),否则g(x,y)=0,(即颜色为黑),其中T值为设定的阈值[8]。
这种方法对于汉字图像这种颜色较为单一而不丰富的情况较为有效。
在matlab环境下实现二值化的命令可如下所示:
I=imread('原始图像');%读取原始图片
J=rgb2gray(I);%图像灰度化
figure
subplot(2,2,1),imshow(I),title('OriginImage');%显示原始图像
subplot(2,2,2),imshow(J),title('GrayedImage');%显示灰度化后的图像
%选取阈值T对图像进行二值化处理
%灰度值大于T的为白色,小于T的为黑色
K=find(J J(K)=0; K=find(J>=T); J(K)=255; subplot(2,2,3),imshow(J),title('BinaryImage');%显示二值化后的图像[8]代码 (1) 在实际操作中也可以利用bw=im2bw(I,0.5);即直接用matlab自带函数进行二值化处理。 3.1.2平滑去噪 在图像的采样、数字化、量化过程中,由于输入转化器件及环境的影响,图像上一般会叠加各种各样的噪声,为让图像恢复庐山真面目,平滑去噪必不可少。 一个较好的去噪方法应该是既能消去噪声对图像的影响又不使图像细节变模糊。 平滑化处理是图像增强中的一种技术,其目的有两个: 一是按特定的需要突出一幅像中的有用信息;另一是为适应计算机处理的需要,消除汉字在输入数字化时所混入的噪声[7]。 因为文字已经过二值化,所以印刷体汉字图像的质量在可以保证的前提下,对文字图像无须进行复杂的滤波处理,我们就可以使用简单有效的方法进行平滑去噪就可以了。 因此本文着重介绍的是用matlab方式实现的均值滤波法,即先对已经过二值化的文字图像添加噪声,而后用滤波法将输入转化器件与环境的影响所产生的噪声一同滤去,使经二值化的图像首先不会在边缘轮廓及线条等重要信息上被损坏,同时可以使图像清晰,视觉效果更好[9]。 经过均值滤波后的图像一是可以按特定的需要突出一幅汉字图像中的有用信息;另一是为适应计算机后期处理的需要,消除汉字在输入数字化时所混入的噪声。 3.1.3行字切分 汉字切分是整个识别系统中极为重要的一个环节,因为正确的识别往往依赖于正确的切分。 切分正确率的高低会影响到整个识别系统的有效性,没有高正确率的切分,即使有好的识别算法,也无法获得高性能的识别系统[9]。 对二值化后的图像进行扫描,若该行每个像素值均为零,则为行间空白区,若该行存在值为1的像素,且值为1的像素数目大于一给定阈值(阈值可通过实验进行优化),则可以认为是以行文字的起始扫描行,记下该行。 继续进行扫描,直到扫描到一行像素值全为零或值为1的像素数目小于一给定阈值的行为止,并记下该行号,由此可确定一行文字所占区域。 然后对该行进行垂直扫描,若扫描中该列像素值均为零则可认为是字符间空白列,直到扫描到一列中值为1的像素数目大于零或大于一给定阈值,则开始进行轮廓跟踪分割出一个连通区域,若分割得到的连通区域高度或宽度明显小于以前得到的字符宽度或高度,则认为是偏旁部首。 寻找下一个连通区域,并合并两个连通区域。 至此可确定一个汉字字符。 经过前面的预处理,特别是二值化与平滑去噪,已经将文字从背景中提取出来了,但是以单个汉字为基础的识别要求将每个汉字从文章中提取出来。 由于我们平常都是按行书写,因此首先对行进行分割,再从每行中提取汉字。 从上至下扫描图像,满足下式时,第n1行被认为是一行文字的顶部 (1) 式中n1表示文件的行号,1表示一行的字节数,f(i,n: )表示输入文件在区域内(i,n1)的值(全空为0,否则为1) 同理,满足下式时,n2被认为是一行文字的底部 (2) (3) 完成了对行的分割以后,就要对字进行切分。 设文字行的上端为nl,下端为n2,按如下方法进行切分: 从左至右扫描该行,当满足下式时,第ml是该字的左部。 (4) 同理,当满足下式时,m2被认为该字的右部。 (5) (6) 但值得一提的是,这样切分出的汉字可能是不完整的,当遇到如刚、误、咽等字时,容易引起错误。 这也是此种方法的缺点之一[10]。 3.2特征提取 3.2.1统计特征 预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。 对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数己经不下百种。 但每种汉字特征的适用环境都有所不同,有的特征在一些情况下有很强的自动纠错能力,但在另外一些情况下却完全失去了效用[10]。 例如,汉字特征点特征算法本身是一种比较简单、完善的特征提取算法。 在汉字图像满足清晰、无笔画连联、无断笔等细化要求时,是能够完全将汉字的各种特征点位置提取处理的;若汉字图像本身模糊不清,预处理工作也无法达到要求,这样再好的汉字特征点特征提取算法也无法提取正确的汉字特征点特征,已经获得的特征点特征一旦应用到汉字识别系统中去,将会极大地影响整个系统的实用性。 针对不同的系统需求,应该选择不同的汉字特征,进行优化特征组合,这样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汉字 识别 技术研究